Training in progress, step 1000

Browse files

Files changed (14) hide show

model.safetensors +1 -1
tmp-checkpoint-4500/config.json +74 -0
tmp-checkpoint-4500/merges.txt +0 -0
tmp-checkpoint-4500/model.safetensors +3 -0
tmp-checkpoint-4500/optimizer.pt +3 -0
tmp-checkpoint-4500/rng_state.pth +3 -0
tmp-checkpoint-4500/scheduler.pt +3 -0
tmp-checkpoint-4500/special_tokens_map.json +51 -0
tmp-checkpoint-4500/tokenizer.json +0 -0
tmp-checkpoint-4500/tokenizer_config.json +57 -0
tmp-checkpoint-4500/trainer_state.json +183 -0
tmp-checkpoint-4500/training_args.bin +3 -0
tmp-checkpoint-4500/vocab.json +0 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:465fe6c210f52b658fc518826ccd77a756b127ae33e0eb5b28504877fffcb4be
 size 501629388

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6834d36430789a0b008e2497f1a39d65bca40bd066e7b8e75029940decfbee6
 size 501629388

tmp-checkpoint-4500/config.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "_name_or_path": "ufal/robeczech-base",
+  "architectures": [
+    "RobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.3,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "B-A",
+    "2": "I-A",
+    "3": "B-C",
+    "4": "I-C",
+    "5": "B-G",
+    "6": "I-G",
+    "7": "B-I",
+    "8": "I-I",
+    "9": "B-M",
+    "10": "I-M",
+    "11": "B-N",
+    "12": "I-N",
+    "13": "B-O",
+    "14": "I-O",
+    "15": "B-P",
+    "16": "I-P",
+    "17": "B-Q",
+    "18": "I-Q",
+    "19": "B-T",
+    "20": "I-T"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "B-A": 1,
+    "B-C": 3,
+    "B-G": 5,
+    "B-I": 7,
+    "B-M": 9,
+    "B-N": 11,
+    "B-O": 13,
+    "B-P": 15,
+    "B-Q": 17,
+    "B-T": 19,
+    "I-A": 2,
+    "I-C": 4,
+    "I-G": 6,
+    "I-I": 8,
+    "I-M": 10,
+    "I-N": 12,
+    "I-O": 14,
+    "I-P": 16,
+    "I-Q": 18,
+    "I-T": 20,
+    "O": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 51997
+}

tmp-checkpoint-4500/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tmp-checkpoint-4500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0af16f9b61f6165e6829d997bfca1724486da04b343d21ec6ddc502d2a2c29e
+size 501629388

tmp-checkpoint-4500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1f57aa1f7bac8f8b88c1c24904d7224e558a15da7c7f50f97e71ead0ed404ca
+size 1003377338

tmp-checkpoint-4500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:153cce561e2bbc3beaf37e46c8b38fd4024b4587c0253b78bb48c5bf66e2cc91
+size 14244

tmp-checkpoint-4500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25236c404b22a6140c195f41acd22a6423fecb1c1f2139267b7a1860bfd5f8c7
+size 1064

tmp-checkpoint-4500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tmp-checkpoint-4500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tmp-checkpoint-4500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "51960": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "errors": "replace",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "[UNK]"
+}

tmp-checkpoint-4500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,183 @@

+{
+  "best_metric": 0.8497297297297296,
+  "best_model_checkpoint": "models/CNEC_1_1_Supertypes_robeczech-base/checkpoint-3000",
+  "epoch": 15.306122448979592,
+  "eval_steps": 500,
+  "global_step": 4500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.7874149659863948e-05,
+      "loss": 1.0991,
+      "step": 500
+    },
+    {
+      "epoch": 1.7,
+      "eval_accuracy": 0.8242282749675746,
+      "eval_f1": 0.181762168823167,
+      "eval_loss": 0.6645339131355286,
+      "eval_precision": 0.2997967479674797,
+      "eval_recall": 0.1304155614500442,
+      "eval_runtime": 1.261,
+      "eval_samples_per_second": 465.507,
+      "eval_steps_per_second": 29.342,
+      "step": 500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 1.5748299319727894e-05,
+      "loss": 0.5811,
+      "step": 1000
+    },
+    {
+      "epoch": 3.4,
+      "eval_accuracy": 0.9089494163424124,
+      "eval_f1": 0.6692325107539053,
+      "eval_loss": 0.381412535905838,
+      "eval_precision": 0.6858468677494199,
+      "eval_recall": 0.6534040671971706,
+      "eval_runtime": 1.25,
+      "eval_samples_per_second": 469.61,
+      "eval_steps_per_second": 29.601,
+      "step": 1000
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 1.3622448979591838e-05,
+      "loss": 0.3795,
+      "step": 1500
+    },
+    {
+      "epoch": 5.1,
+      "eval_accuracy": 0.9332295719844358,
+      "eval_f1": 0.7911569006224511,
+      "eval_loss": 0.27451610565185547,
+      "eval_precision": 0.7688777638715061,
+      "eval_recall": 0.8147656940760389,
+      "eval_runtime": 1.2547,
+      "eval_samples_per_second": 467.84,
+      "eval_steps_per_second": 29.489,
+      "step": 1500
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.1496598639455783e-05,
+      "loss": 0.2893,
+      "step": 2000
+    },
+    {
+      "epoch": 6.8,
+      "eval_accuracy": 0.9353047989623865,
+      "eval_f1": 0.8009357720119099,
+      "eval_loss": 0.250001460313797,
+      "eval_precision": 0.7717213114754098,
+      "eval_recall": 0.832449160035367,
+      "eval_runtime": 1.252,
+      "eval_samples_per_second": 468.859,
+      "eval_steps_per_second": 29.553,
+      "step": 2000
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 9.370748299319729e-06,
+      "loss": 0.243,
+      "step": 2500
+    },
+    {
+      "epoch": 8.5,
+      "eval_accuracy": 0.9446952010376135,
+      "eval_f1": 0.8305448305448305,
+      "eval_loss": 0.22616998851299286,
+      "eval_precision": 0.8066666666666666,
+      "eval_recall": 0.8558797524314765,
+      "eval_runtime": 1.2508,
+      "eval_samples_per_second": 469.297,
+      "eval_steps_per_second": 29.581,
+      "step": 2500
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 7.244897959183675e-06,
+      "loss": 0.2069,
+      "step": 3000
+    },
+    {
+      "epoch": 10.2,
+      "eval_accuracy": 0.9494163424124513,
+      "eval_f1": 0.8497297297297296,
+      "eval_loss": 0.2100590616464615,
+      "eval_precision": 0.8315700380871773,
+      "eval_recall": 0.8687002652519894,
+      "eval_runtime": 1.2548,
+      "eval_samples_per_second": 467.818,
+      "eval_steps_per_second": 29.488,
+      "step": 3000
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 5.119047619047619e-06,
+      "loss": 0.1891,
+      "step": 3500
+    },
+    {
+      "epoch": 11.9,
+      "eval_accuracy": 0.948171206225681,
+      "eval_f1": 0.8455110349260767,
+      "eval_loss": 0.21557851135730743,
+      "eval_precision": 0.8203742203742204,
+      "eval_recall": 0.872236958443855,
+      "eval_runtime": 1.2513,
+      "eval_samples_per_second": 469.098,
+      "eval_steps_per_second": 29.568,
+      "step": 3500
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 2.993197278911565e-06,
+      "loss": 0.1696,
+      "step": 4000
+    },
+    {
+      "epoch": 13.61,
+      "eval_accuracy": 0.9481193255512321,
+      "eval_f1": 0.8434408602150538,
+      "eval_loss": 0.21531638503074646,
+      "eval_precision": 0.8211892797319933,
+      "eval_recall": 0.8669319186560566,
+      "eval_runtime": 1.2533,
+      "eval_samples_per_second": 468.347,
+      "eval_steps_per_second": 29.521,
+      "step": 4000
+    },
+    {
+      "epoch": 15.31,
+      "learning_rate": 8.673469387755103e-07,
+      "loss": 0.1648,
+      "step": 4500
+    },
+    {
+      "epoch": 15.31,
+      "eval_accuracy": 0.9493125810635539,
+      "eval_f1": 0.8472162278808805,
+      "eval_loss": 0.2082456350326538,
+      "eval_precision": 0.8275716694772344,
+      "eval_recall": 0.867816091954023,
+      "eval_runtime": 1.2902,
+      "eval_samples_per_second": 454.972,
+      "eval_steps_per_second": 28.678,
+      "step": 4500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4704,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "total_flos": 3256485298785900.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

tmp-checkpoint-4500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c85177659a979beb30b0bb9bb8965421f25425864cc128ab21958a9031472241
+size 4728

tmp-checkpoint-4500/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c85177659a979beb30b0bb9bb8965421f25425864cc128ab21958a9031472241
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:be4986431d4b9f16ad07428f3930f4968ee6e5cf2df7c34d498a33b2dfa47276
 size 4728