Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

README.md +161 -0
camembertav2_base_p2_17k_last_layer.yaml +32 -0
fr_sequoia-ud-dev.parsed.conllu +0 -0
fr_sequoia-ud-test.parsed.conllu +0 -0
model/config.json +1 -0
model/lexers/camembertav2_base_p2_17k_last_layer/config.json +1 -0
model/lexers/camembertav2_base_p2_17k_last_layer/model/config.json +41 -0
model/lexers/camembertav2_base_p2_17k_last_layer/model/special_tokens_map.json +51 -0
model/lexers/camembertav2_base_p2_17k_last_layer/model/tokenizer.json +0 -0
model/lexers/camembertav2_base_p2_17k_last_layer/model/tokenizer_config.json +57 -0
model/lexers/char_level_embeddings/config.json +1 -0
model/lexers/fasttext/config.json +1 -0
model/lexers/fasttext/fasttext_model.bin +3 -0
model/lexers/word_embeddings/config.json +0 -0
model/weights.pt +3 -0
train.log +111 -0

README.md ADDED Viewed

	@@ -0,0 +1,161 @@

+---
+language: fr
+license: mit
+tags:
+- deberta-v2
+- token-classification
+base_model: almanach/camembertav2-base
+datasets:
+- Sequoia
+metrics:
+- las
+- upos
+model-index:
+- name: almanach/camembertav2-base-sequoia
+  results:
+  - task:
+      type: token-classification
+      name: Part-of-Speech Tagging
+    dataset:
+      type: Sequoia
+      name: Sequoia
+    metrics:
+    - name: upos
+      type: upos
+      value: 0.99423
+      verified: false
+  - task:
+      type: token-classification
+      name: Dependency Parsing
+    dataset:
+      type: Sequoia
+      name: Sequoia
+    metrics:
+    - name: las
+      type: las
+      value: 0.94883
+      verified: false
+---
+# Model Card for almanach/camembertav2-base-sequoia
+almanach/camembertav2-base-sequoia is a deberta-v2 model for token classification. It is trained on the Sequoia dataset for the task of Part-of-Speech Tagging and Dependency Parsing.
+ The model achieves an f1 score of  on the Sequoia dataset.
+The model is part of the almanach/camembertav2-base family of model finetunes.
+## Model Details
+### Model Description
+- **Developed by:** Wissam Antoun (Phd Student at Almanach, Inria-Paris)
+- **Model type:** deberta-v2
+- **Language(s) (NLP):** French
+- **License:** MIT
+- **Finetuned from model :** almanach/camembertav2-base
+### Model Sources
+<!-- Provide the basic links for the model. -->
+- **Repository:** https://github.com/WissamAntoun/camemberta
+- **Paper:** https://arxiv.org/abs/2411.08868
+## Uses
+The model can be used for token classification tasks in French for Part-of-Speech Tagging and Dependency Parsing.
+## Bias, Risks, and Limitations
+The model may exhibit biases based on the training data. The model may not generalize well to other datasets or tasks. The model may also have limitations in terms of the data it was trained on.
+## How to Get Started with the Model
+You can use the models directly with the hopsparser library in server mode https://github.com/hopsparser/hopsparser/blob/main/docs/server.md
+## Training Details
+### Training Procedure
+Model trained with the [hopsparser](https://github.com/hopsparser/hopsparser) library on the Sequoia dataset.
+#### Training Hyperparameters
+```yml
+# Layer dimensions
+mlp_input: 1024
+mlp_tag_hidden: 16
+mlp_arc_hidden: 512
+mlp_lab_hidden: 128
+# Lexers
+lexers:
+  - name: word_embeddings
+    type: words
+    embedding_size: 256
+    word_dropout: 0.5
+  - name: char_level_embeddings
+    type: chars_rnn
+    embedding_size: 64
+    lstm_output_size: 128
+  - name: fasttext
+    type: fasttext
+  - name: camembertav2_base_p2_17k_last_layer
+    type: bert
+    model: /scratch/camembertv2/runs/models/camembertav2-base-bf16/post/ckpt-p2-17000/pt/discriminator/
+    layers: [11]
+    subwords_reduction: "mean"
+# Training hyperparameters
+encoder_dropout: 0.5
+mlp_dropout: 0.5
+batch_size: 8
+epochs: 64
+lr:
+  base: 0.00003
+  schedule:
+    shape: linear
+    warmup_steps: 100
+```
+#### Results
+**UPOS:** 0.99423
+**LAS:** 0.94883
+## Technical Specifications
+### Model Architecture and Objective
+deberta-v2 custom model for token classification.
+## Citation
+**BibTeX:**
+```bibtex
+@misc{antoun2024camembert20smarterfrench,
+      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
+      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
+      year={2024},
+      eprint={2411.08868},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2411.08868},
+}
+@inproceedings{grobol:hal-03223424,
+    title = {Analyse en dépendances du français avec des plongements contextualisés},
+    author = {Grobol, Loïc and Crabbé, Benoît},
+    url = {https://hal.archives-ouvertes.fr/hal-03223424},
+    booktitle = {Actes de la 28ème Conférence sur le Traitement Automatique des Langues Naturelles},
+    eventtitle = {TALN-RÉCITAL 2021},
+    venue = {Lille, France},
+    pdf = {https://hal.archives-ouvertes.fr/hal-03223424/file/HOPS_final.pdf},
+    hal_id = {hal-03223424},
+    hal_version = {v1},
+}
+```

camembertav2_base_p2_17k_last_layer.yaml ADDED Viewed

	@@ -0,0 +1,32 @@

+# Layer dimensions
+mlp_input: 1024
+mlp_tag_hidden: 16
+mlp_arc_hidden: 512
+mlp_lab_hidden: 128
+# Lexers
+lexers:
+  - name: word_embeddings
+    type: words
+    embedding_size: 256
+    word_dropout: 0.5
+  - name: char_level_embeddings
+    type: chars_rnn
+    embedding_size: 64
+    lstm_output_size: 128
+  - name: fasttext
+    type: fasttext
+  - name: camembertav2_base_p2_17k_last_layer
+    type: bert
+    model: /scratch/camembertv2/runs/models/camembertav2-base-bf16/post/ckpt-p2-17000/pt/discriminator/
+    layers: [11]
+    subwords_reduction: "mean"
+# Training hyperparameters
+encoder_dropout: 0.5
+mlp_dropout: 0.5
+batch_size: 8
+epochs: 64
+lr:
+  base: 0.00003
+  schedule:
+    shape: linear
+    warmup_steps: 100

fr_sequoia-ud-dev.parsed.conllu ADDED Viewed

The diff for this file is too large to render. See raw diff

fr_sequoia-ud-test.parsed.conllu ADDED Viewed

The diff for this file is too large to render. See raw diff

model/config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"mlp_input": 1024, "mlp_tag_hidden": 16, "mlp_arc_hidden": 512, "mlp_lab_hidden": 128, "biased_biaffine": true, "default_batch_size": 8, "encoder_dropout": 0.5, "extra_annotations": {}, "labels": ["acl", "acl:relcl", "advcl", "advcl:cleft", "advmod", "amod", "appos", "aux:caus", "aux:pass", "aux:tense", "case", "cc", "ccomp", "conj", "cop", "csubj", "csubj:pass", "dep", "det", "discourse", "dislocated", "expl:comp", "expl:pass", "expl:subj", "fixed", "flat:foreign", "flat:name", "goeswith", "iobj", "iobj:agent", "mark", "nmod", "nsubj", "nsubj:caus", "nsubj:pass", "nummod", "obj", "obj:agent", "obl:agent", "obl:arg", "obl:mod", "orphan", "parataxis", "punct", "root", "vocative", "xcomp"], "mlp_dropout": 0.5, "tagset": ["ADJ", "ADP", "ADV", "AUX", "CCONJ", "DET", "INTJ", "NOUN", "NUM", "PRON", "PROPN", "PUNCT", "SCONJ", "SYM", "VERB", "X"], "lexers": {"word_embeddings": "words", "char_level_embeddings": "chars_rnn", "fasttext": "fasttext", "camembertav2_base_p2_17k_last_layer": "bert"}, "multitask_loss": "sum"}

model/lexers/camembertav2_base_p2_17k_last_layer/config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"layers": [11], "subwords_reduction": "mean", "weight_layers": false}

model/lexers/camembertav2_base_p2_17k_last_layer/model/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "/scratch/camembertv2/runs/models/camembertav2-base-bf16/post/ckpt-p2-17000/pt/discriminator/",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 1,
+  "conv_act": "gelu",
+  "conv_kernel_size": 0,
+  "embedding_size": 768,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 1024,
+  "max_relative_positions": -1,
+  "model_name": "camembertav2-base-bf16",
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 32768
+}

model/lexers/camembertav2_base_p2_17k_last_layer/model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

model/lexers/camembertav2_base_p2_17k_last_layer/model/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/lexers/camembertav2_base_p2_17k_last_layer/model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "errors": "replace",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "[UNK]"
+}

model/lexers/char_level_embeddings/config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"char_embeddings_dim": 64, "output_dim": 128, "special_tokens": ["<root>"], "charset": ["<pad>", "<special>", " ", "!", "\"", "$", "%", "&", "'", "(", ")", "+", ",", "-", ".", "/", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", ":", ";", "<", "=", "?", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "[", "]", "^", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "\u00a9", "\u00b0", "\u00b1", "\u00bd", "\u00c0", "\u00c9", "\u00ce", "\u00df", "\u00e0", "\u00e1", "\u00e2", "\u00e4", "\u00e7", "\u00e8", "\u00e9", "\u00ea", "\u00eb", "\u00ee", "\u00ef", "\u00f3", "\u00f4", "\u00f6", "\u00f9", "\u00fb"]}

model/lexers/fasttext/config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"special_tokens": ["<root>"]}

model/lexers/fasttext/fasttext_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf09011cf6593888c882b0464e1b82ae5a3d05fce8e5c2861014f45557861568
+size 801050258

model/lexers/word_embeddings/config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/weights.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6626b13e315a9bdd4c63e4321755366a968ab2595f4cb625cf45b67312ba5790
+size 1745757420

train.log ADDED Viewed

	@@ -0,0 +1,111 @@

+[hops] 2024-09-24 16:01:20.681 | INFO     | Initializing a parser from /workspace/configs/exp_camembertv2/camembertav2_base_p2_17k_last_layer.yaml
+[hops] 2024-09-24 16:01:20.730 | INFO     | Generating a FastText model from the treebank
+[hops] 2024-09-24 16:01:20.745 | INFO     | Training fasttext model
+[hops] 2024-09-24 16:01:28.399 | INFO     | Start training on cuda:0
+[hops] 2024-09-24 16:01:28.403 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-24 16:01:47.740 | INFO     | Epoch 0: train loss 2.7794	dev loss 1.9428	dev tag acc 49.62%	dev head acc 27.95%	dev deprel acc 53.97%
+[hops] 2024-09-24 16:01:47.741 | INFO     | New best model: head accuracy 27.95% > 0.00%
+[hops] 2024-09-24 16:02:09.374 | INFO     | Epoch 1: train loss 1.5546	dev loss 1.0005	dev tag acc 72.25%	dev head acc 61.63%	dev deprel acc 80.28%
+[hops] 2024-09-24 16:02:09.375 | INFO     | New best model: head accuracy 61.63% > 27.95%
+[hops] 2024-09-24 16:02:31.031 | INFO     | Epoch 2: train loss 0.9383	dev loss 0.6218	dev tag acc 80.12%	dev head acc 79.32%	dev deprel acc 87.02%
+[hops] 2024-09-24 16:02:31.032 | INFO     | New best model: head accuracy 79.32% > 61.63%
+[hops] 2024-09-24 16:02:51.968 | INFO     | Epoch 3: train loss 0.6428	dev loss 0.4519	dev tag acc 87.60%	dev head acc 84.25%	dev deprel acc 90.09%
+[hops] 2024-09-24 16:02:51.969 | INFO     | New best model: head accuracy 84.25% > 79.32%
+[hops] 2024-09-24 16:03:13.587 | INFO     | Epoch 4: train loss 0.4912	dev loss 0.3727	dev tag acc 91.58%	dev head acc 85.25%	dev deprel acc 92.18%
+[hops] 2024-09-24 16:03:13.588 | INFO     | New best model: head accuracy 85.25% > 84.25%
+[hops] 2024-09-24 16:03:34.880 | INFO     | Epoch 5: train loss 0.3884	dev loss 0.3005	dev tag acc 95.05%	dev head acc 88.23%	dev deprel acc 93.64%
+[hops] 2024-09-24 16:03:34.881 | INFO     | New best model: head accuracy 88.23% > 85.25%
+[hops] 2024-09-24 16:03:56.210 | INFO     | Epoch 6: train loss 0.3135	dev loss 0.2582	dev tag acc 96.33%	dev head acc 90.19%	dev deprel acc 94.54%
+[hops] 2024-09-24 16:03:56.211 | INFO     | New best model: head accuracy 90.19% > 88.23%
+[hops] 2024-09-24 16:04:18.250 | INFO     | Epoch 7: train loss 0.2602	dev loss 0.2364	dev tag acc 96.99%	dev head acc 90.92%	dev deprel acc 95.35%
+[hops] 2024-09-24 16:04:18.251 | INFO     | New best model: head accuracy 90.92% > 90.19%
+[hops] 2024-09-24 16:04:39.889 | INFO     | Epoch 8: train loss 0.2206	dev loss 0.2207	dev tag acc 97.62%	dev head acc 91.55%	dev deprel acc 95.82%
+[hops] 2024-09-24 16:04:39.890 | INFO     | New best model: head accuracy 91.55% > 90.92%
+[hops] 2024-09-24 16:05:00.941 | INFO     | Epoch 9: train loss 0.1885	dev loss 0.2092	dev tag acc 97.86%	dev head acc 92.34%	dev deprel acc 96.26%
+[hops] 2024-09-24 16:05:00.942 | INFO     | New best model: head accuracy 92.34% > 91.55%
+[hops] 2024-09-24 16:05:22.018 | INFO     | Epoch 10: train loss 0.1633	dev loss 0.1818	dev tag acc 98.23%	dev head acc 92.87%	dev deprel acc 96.84%
+[hops] 2024-09-24 16:05:22.019 | INFO     | New best model: head accuracy 92.87% > 92.34%
+[hops] 2024-09-24 16:05:42.839 | INFO     | Epoch 11: train loss 0.1444	dev loss 0.1800	dev tag acc 98.40%	dev head acc 93.47%	dev deprel acc 96.77%
+[hops] 2024-09-24 16:05:42.840 | INFO     | New best model: head accuracy 93.47% > 92.87%
+[hops] 2024-09-24 16:06:04.127 | INFO     | Epoch 12: train loss 0.1289	dev loss 0.1718	dev tag acc 98.58%	dev head acc 93.67%	dev deprel acc 97.08%
+[hops] 2024-09-24 16:06:04.128 | INFO     | New best model: head accuracy 93.67% > 93.47%
+[hops] 2024-09-24 16:06:26.120 | INFO     | Epoch 13: train loss 0.1136	dev loss 0.1875	dev tag acc 98.59%	dev head acc 93.56%	dev deprel acc 97.00%
+[hops] 2024-09-24 16:06:45.617 | INFO     | Epoch 14: train loss 0.1033	dev loss 0.1923	dev tag acc 98.85%	dev head acc 93.73%	dev deprel acc 97.03%
+[hops] 2024-09-24 16:06:45.618 | INFO     | New best model: head accuracy 93.73% > 93.67%
+[hops] 2024-09-24 16:07:07.243 | INFO     | Epoch 15: train loss 0.0938	dev loss 0.1859	dev tag acc 98.89%	dev head acc 94.23%	dev deprel acc 97.14%
+[hops] 2024-09-24 16:07:07.244 | INFO     | New best model: head accuracy 94.23% > 93.73%
+[hops] 2024-09-24 16:07:29.285 | INFO     | Epoch 16: train loss 0.0855	dev loss 0.1829	dev tag acc 98.89%	dev head acc 94.30%	dev deprel acc 97.31%
+[hops] 2024-09-24 16:07:29.287 | INFO     | New best model: head accuracy 94.30% > 94.23%
+[hops] 2024-09-24 16:07:50.544 | INFO     | Epoch 17: train loss 0.0789	dev loss 0.1872	dev tag acc 98.91%	dev head acc 94.57%	dev deprel acc 97.40%
+[hops] 2024-09-24 16:07:50.545 | INFO     | New best model: head accuracy 94.57% > 94.30%
+[hops] 2024-09-24 16:08:12.269 | INFO     | Epoch 18: train loss 0.0730	dev loss 0.1901	dev tag acc 98.95%	dev head acc 94.59%	dev deprel acc 97.29%
+[hops] 2024-09-24 16:08:12.270 | INFO     | New best model: head accuracy 94.59% > 94.57%
+[hops] 2024-09-24 16:08:33.803 | INFO     | Epoch 19: train loss 0.0665	dev loss 0.1852	dev tag acc 98.91%	dev head acc 94.72%	dev deprel acc 97.43%
+[hops] 2024-09-24 16:08:33.804 | INFO     | New best model: head accuracy 94.72% > 94.59%
+[hops] 2024-09-24 16:08:55.220 | INFO     | Epoch 20: train loss 0.0620	dev loss 0.2002	dev tag acc 98.96%	dev head acc 95.00%	dev deprel acc 97.45%
+[hops] 2024-09-24 16:08:55.221 | INFO     | New best model: head accuracy 95.00% > 94.72%
+[hops] 2024-09-24 16:09:16.939 | INFO     | Epoch 21: train loss 0.0574	dev loss 0.2063	dev tag acc 99.04%	dev head acc 94.79%	dev deprel acc 97.56%
+[hops] 2024-09-24 16:09:36.037 | INFO     | Epoch 22: train loss 0.0534	dev loss 0.2002	dev tag acc 99.06%	dev head acc 95.04%	dev deprel acc 97.55%
+[hops] 2024-09-24 16:09:36.038 | INFO     | New best model: head accuracy 95.04% > 95.00%
+[hops] 2024-09-24 16:09:57.103 | INFO     | Epoch 23: train loss 0.0503	dev loss 0.2077	dev tag acc 99.06%	dev head acc 95.07%	dev deprel acc 97.55%
+[hops] 2024-09-24 16:09:57.103 | INFO     | New best model: head accuracy 95.07% > 95.04%
+[hops] 2024-09-24 16:10:18.368 | INFO     | Epoch 24: train loss 0.0469	dev loss 0.2004	dev tag acc 99.06%	dev head acc 95.43%	dev deprel acc 97.68%
+[hops] 2024-09-24 16:10:18.369 | INFO     | New best model: head accuracy 95.43% > 95.07%
+[hops] 2024-09-24 16:10:40.222 | INFO     | Epoch 25: train loss 0.0432	dev loss 0.2043	dev tag acc 99.02%	dev head acc 95.30%	dev deprel acc 97.67%
+[hops] 2024-09-24 16:10:59.739 | INFO     | Epoch 26: train loss 0.0416	dev loss 0.2225	dev tag acc 99.06%	dev head acc 95.08%	dev deprel acc 97.48%
+[hops] 2024-09-24 16:11:18.934 | INFO     | Epoch 27: train loss 0.0375	dev loss 0.2118	dev tag acc 99.08%	dev head acc 95.39%	dev deprel acc 97.62%
+[hops] 2024-09-24 16:11:37.455 | INFO     | Epoch 28: train loss 0.0369	dev loss 0.2139	dev tag acc 99.08%	dev head acc 95.28%	dev deprel acc 97.76%
+[hops] 2024-09-24 16:11:57.066 | INFO     | Epoch 29: train loss 0.0351	dev loss 0.2086	dev tag acc 99.12%	dev head acc 95.46%	dev deprel acc 97.72%
+[hops] 2024-09-24 16:11:57.067 | INFO     | New best model: head accuracy 95.46% > 95.43%
+[hops] 2024-09-24 16:12:18.271 | INFO     | Epoch 30: train loss 0.0329	dev loss 0.2321	dev tag acc 99.06%	dev head acc 95.49%	dev deprel acc 97.58%
+[hops] 2024-09-24 16:12:18.272 | INFO     | New best model: head accuracy 95.49% > 95.46%
+[hops] 2024-09-24 16:12:40.183 | INFO     | Epoch 31: train loss 0.0320	dev loss 0.2237	dev tag acc 99.14%	dev head acc 95.79%	dev deprel acc 97.80%
+[hops] 2024-09-24 16:12:40.184 | INFO     | New best model: head accuracy 95.79% > 95.49%
+[hops] 2024-09-24 16:13:01.544 | INFO     | Epoch 32: train loss 0.0291	dev loss 0.2373	dev tag acc 99.10%	dev head acc 95.38%	dev deprel acc 97.79%
+[hops] 2024-09-24 16:13:20.203 | INFO     | Epoch 33: train loss 0.0288	dev loss 0.2393	dev tag acc 99.13%	dev head acc 95.61%	dev deprel acc 97.77%
+[hops] 2024-09-24 16:13:38.371 | INFO     | Epoch 34: train loss 0.0261	dev loss 0.2499	dev tag acc 99.08%	dev head acc 95.62%	dev deprel acc 97.76%
+[hops] 2024-09-24 16:13:57.799 | INFO     | Epoch 35: train loss 0.0254	dev loss 0.2435	dev tag acc 99.11%	dev head acc 95.74%	dev deprel acc 97.81%
+[hops] 2024-09-24 16:14:15.970 | INFO     | Epoch 36: train loss 0.0235	dev loss 0.2542	dev tag acc 99.15%	dev head acc 95.53%	dev deprel acc 97.85%
+[hops] 2024-09-24 16:14:34.739 | INFO     | Epoch 37: train loss 0.0226	dev loss 0.2540	dev tag acc 99.07%	dev head acc 95.39%	dev deprel acc 97.71%
+[hops] 2024-09-24 16:14:53.771 | INFO     | Epoch 38: train loss 0.0218	dev loss 0.2529	dev tag acc 99.09%	dev head acc 95.24%	dev deprel acc 97.74%
+[hops] 2024-09-24 16:15:13.379 | INFO     | Epoch 39: train loss 0.0206	dev loss 0.2571	dev tag acc 99.09%	dev head acc 95.57%	dev deprel acc 97.83%
+[hops] 2024-09-24 16:15:32.562 | INFO     | Epoch 40: train loss 0.0195	dev loss 0.2649	dev tag acc 99.19%	dev head acc 95.64%	dev deprel acc 97.80%
+[hops] 2024-09-24 16:15:50.944 | INFO     | Epoch 41: train loss 0.0194	dev loss 0.2632	dev tag acc 99.14%	dev head acc 95.73%	dev deprel acc 97.77%
+[hops] 2024-09-24 16:16:09.974 | INFO     | Epoch 42: train loss 0.0178	dev loss 0.2683	dev tag acc 99.21%	dev head acc 95.81%	dev deprel acc 97.85%
+[hops] 2024-09-24 16:16:09.975 | INFO     | New best model: head accuracy 95.81% > 95.79%
+[hops] 2024-09-24 16:16:31.272 | INFO     | Epoch 43: train loss 0.0162	dev loss 0.2753	dev tag acc 99.20%	dev head acc 95.74%	dev deprel acc 97.80%
+[hops] 2024-09-24 16:16:49.960 | INFO     | Epoch 44: train loss 0.0233	dev loss 0.2764	dev tag acc 99.21%	dev head acc 95.75%	dev deprel acc 97.84%
+[hops] 2024-09-24 16:17:09.618 | INFO     | Epoch 45: train loss 0.0157	dev loss 0.2860	dev tag acc 99.23%	dev head acc 95.84%	dev deprel acc 97.92%
+[hops] 2024-09-24 16:17:09.619 | INFO     | New best model: head accuracy 95.84% > 95.81%
+[hops] 2024-09-24 16:17:31.311 | INFO     | Epoch 46: train loss 0.0141	dev loss 0.2782	dev tag acc 99.24%	dev head acc 95.67%	dev deprel acc 97.92%
+[hops] 2024-09-24 16:17:50.429 | INFO     | Epoch 47: train loss 0.0135	dev loss 0.2823	dev tag acc 99.20%	dev head acc 95.93%	dev deprel acc 97.84%
+[hops] 2024-09-24 16:17:50.430 | INFO     | New best model: head accuracy 95.93% > 95.84%
+[hops] 2024-09-24 16:18:12.154 | INFO     | Epoch 48: train loss 0.0139	dev loss 0.2830	dev tag acc 99.17%	dev head acc 95.77%	dev deprel acc 97.81%
+[hops] 2024-09-24 16:18:30.927 | INFO     | Epoch 49: train loss 0.0129	dev loss 0.2882	dev tag acc 99.17%	dev head acc 95.87%	dev deprel acc 97.78%
+[hops] 2024-09-24 16:18:50.677 | INFO     | Epoch 50: train loss 0.0120	dev loss 0.2876	dev tag acc 99.18%	dev head acc 95.82%	dev deprel acc 97.80%
+[hops] 2024-09-24 16:19:09.749 | INFO     | Epoch 51: train loss 0.0115	dev loss 0.2998	dev tag acc 99.19%	dev head acc 95.69%	dev deprel acc 97.85%
+[hops] 2024-09-24 16:19:28.709 | INFO     | Epoch 52: train loss 0.0116	dev loss 0.2948	dev tag acc 99.22%	dev head acc 95.76%	dev deprel acc 97.95%
+[hops] 2024-09-24 16:19:47.697 | INFO     | Epoch 53: train loss 0.0102	dev loss 0.3000	dev tag acc 99.22%	dev head acc 95.95%	dev deprel acc 97.90%
+[hops] 2024-09-24 16:19:47.698 | INFO     | New best model: head accuracy 95.95% > 95.93%
+[hops] 2024-09-24 16:20:09.017 | INFO     | Epoch 54: train loss 0.0104	dev loss 0.3013	dev tag acc 99.23%	dev head acc 96.02%	dev deprel acc 97.89%
+[hops] 2024-09-24 16:20:09.018 | INFO     | New best model: head accuracy 96.02% > 95.95%
+[hops] 2024-09-24 16:20:30.175 | INFO     | Epoch 55: train loss 0.0105	dev loss 0.2964	dev tag acc 99.26%	dev head acc 96.01%	dev deprel acc 97.95%
+[hops] 2024-09-24 16:20:50.301 | INFO     | Epoch 56: train loss 0.0098	dev loss 0.2959	dev tag acc 99.23%	dev head acc 95.97%	dev deprel acc 97.89%
+[hops] 2024-09-24 16:21:09.359 | INFO     | Epoch 57: train loss 0.0091	dev loss 0.3062	dev tag acc 99.25%	dev head acc 95.88%	dev deprel acc 97.87%
+[hops] 2024-09-24 16:21:28.289 | INFO     | Epoch 58: train loss 0.0089	dev loss 0.3102	dev tag acc 99.25%	dev head acc 95.87%	dev deprel acc 97.85%
+[hops] 2024-09-24 16:21:48.019 | INFO     | Epoch 59: train loss 0.0089	dev loss 0.3086	dev tag acc 99.24%	dev head acc 95.97%	dev deprel acc 97.91%
+[hops] 2024-09-24 16:22:06.944 | INFO     | Epoch 60: train loss 0.0086	dev loss 0.3091	dev tag acc 99.25%	dev head acc 95.98%	dev deprel acc 97.91%
+[hops] 2024-09-24 16:22:25.872 | INFO     | Epoch 61: train loss 0.0080	dev loss 0.3121	dev tag acc 99.27%	dev head acc 95.96%	dev deprel acc 97.91%
+[hops] 2024-09-24 16:22:44.686 | INFO     | Epoch 62: train loss 0.0087	dev loss 0.3127	dev tag acc 99.25%	dev head acc 96.02%	dev deprel acc 97.91%
+[hops] 2024-09-24 16:23:03.731 | INFO     | Epoch 63: train loss 0.0083	dev loss 0.3123	dev tag acc 99.25%	dev head acc 96.03%	dev deprel acc 97.92%
+[hops] 2024-09-24 16:23:03.732 | INFO     | New best model: head accuracy 96.03% > 96.02%
+[hops] 2024-09-24 16:23:11.038 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-24 16:23:16.913 | WARNING  | You're using a RobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[hops] 2024-09-24 16:23:18.926 | INFO     | Metrics for Sequoia-camembertav2_base_p2_17k_last_layer+rand_seed=42
+ ───────────────────────────────
+  Split   UPOS     UAS     LAS
+ ───────────────────────────────
+  Dev     99.25   96.08   94.89
+  Test    99.42   95.98   94.88
+ ───────────────────────────────