update new model

Browse files

Files changed (11) hide show

.DS_Store +0 -0
config.json +1 -1
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
special_tokens_map.json +7 -1
tokenizer.json +6 -1
tokenizer_config.json +13 -1
trainer_state.json +67 -169
training_args.bin +2 -2

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

config.json CHANGED Viewed

@@ -41,6 +41,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.16.2",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.31.0.dev0",
   "vocab_size": 30522
 }

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fc301f3565f1f66dcc2f181d9282ed55ed442c52baa544c2581bdc8a61f2953
-size 531014313

 version https://git-lfs.github.com/spec/v1
+oid sha256:189f1548d795d3644df5e1b50a29a1486d30f17b5cd55c1b8f8434168117565f
+size 531015301

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:244b8ae0a16e42ca098bf10fcbd969892e6cbcf3e0a7f05a4ec52fb752db3ea1
-size 265517173

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8b8e20dea860c2d6daf7d75cc1ed1c2deaaf02b47d2669558a5a6439d4a5f
+size 265512613

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c80dcae06b0c0549c4ad1ac0024ccb896e9245726737652c176de5d386a600c8
-size 13547

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e6b402c9f12d6e11514556247eb556837d54d1ce0345832ec974e0a7a504007
+size 13553

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a7307711a3ffe0a038b57c3070c813da888b248e0bbf62ba06ac99ee91aa9d6
-size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1c1b5f8640b2c97cbad8c639ab7713c2c33f9df75adcc4050de3b5dad279f3c
+size 627

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,7 @@
1	- {~~"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}~~

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,13 @@
1	- {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "distilbert-base-uncased", "tokenizer_class": "DistilBertTokenizer"}

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json CHANGED Viewed

@@ -1,202 +1,100 @@
 {
-  "best_metric": 0.07052170485258102,
-  "best_model_checkpoint": "token_level_model/best_model/checkpoint-948",
-  "epoch": 12.0,
-  "global_step": 3792,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_balanced accuracy": 0.5633085631676005,
-      "eval_f1": 0.5303163390780957,
-      "eval_loss": 0.09163307398557663,
-      "eval_precision": 0.6548165588282941,
-      "eval_recall": 0.5633085631676005,
-      "eval_runtime": 5.3367,
-      "eval_samples_per_second": 236.852,
-      "eval_steps_per_second": 14.803,
-      "step": 316
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 1.7362869198312237e-05,
-      "loss": 0.1839,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_balanced accuracy": 0.7195902052549533,
-      "eval_f1": 0.7255288809894066,
-      "eval_loss": 0.0722324550151825,
-      "eval_precision": 0.7454575741625619,
-      "eval_recall": 0.7195902052549533,
-      "eval_runtime": 5.3534,
-      "eval_samples_per_second": 236.111,
-      "eval_steps_per_second": 14.757,
-      "step": 632
-    },
-    {
-      "epoch": 3.0,
-      "eval_balanced accuracy": 0.7147400555506803,
-      "eval_f1": 0.7192305114894215,
-      "eval_loss": 0.07052170485258102,
-      "eval_precision": 0.7756273409712318,
-      "eval_recall": 0.7147400555506803,
-      "eval_runtime": 5.4755,
-      "eval_samples_per_second": 230.847,
-      "eval_steps_per_second": 14.428,
-      "step": 948
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 1.4725738396624474e-05,
-      "loss": 0.0587,
       "step": 1000
     },
     {
-      "epoch": 4.0,
-      "eval_balanced accuracy": 0.7295185936273012,
-      "eval_f1": 0.7296703416168215,
-      "eval_loss": 0.07182055711746216,
-      "eval_precision": 0.7401045017667032,
-      "eval_recall": 0.7295185936273012,
-      "eval_runtime": 5.3937,
-      "eval_samples_per_second": 234.345,
-      "eval_steps_per_second": 14.647,
-      "step": 1264
-    },
-    {
-      "epoch": 4.75,
-      "learning_rate": 1.208860759493671e-05,
-      "loss": 0.0376,
       "step": 1500
     },
     {
-      "epoch": 5.0,
-      "eval_balanced accuracy": 0.735330002568732,
-      "eval_f1": 0.743746101471838,
-      "eval_loss": 0.07561135292053223,
-      "eval_precision": 0.758929084908083,
-      "eval_recall": 0.735330002568732,
-      "eval_runtime": 5.5304,
-      "eval_samples_per_second": 228.555,
-      "eval_steps_per_second": 14.285,
-      "step": 1580
-    },
-    {
-      "epoch": 6.0,
-      "eval_balanced accuracy": 0.7487913019838482,
-      "eval_f1": 0.7539294881409199,
-      "eval_loss": 0.08333344757556915,
-      "eval_precision": 0.7640729935139194,
-      "eval_recall": 0.7487913019838482,
-      "eval_runtime": 5.304,
-      "eval_samples_per_second": 238.312,
-      "eval_steps_per_second": 14.894,
-      "step": 1896
-    },
-    {
-      "epoch": 6.33,
-      "learning_rate": 9.451476793248946e-06,
-      "loss": 0.0239,
       "step": 2000
     },
     {
-      "epoch": 7.0,
-      "eval_balanced accuracy": 0.7495077050154062,
-      "eval_f1": 0.7547220689413356,
-      "eval_loss": 0.09176070988178253,
-      "eval_precision": 0.7680132999431392,
-      "eval_recall": 0.7495077050154062,
-      "eval_runtime": 5.4894,
-      "eval_samples_per_second": 230.262,
-      "eval_steps_per_second": 14.391,
-      "step": 2212
-    },
-    {
-      "epoch": 7.91,
-      "learning_rate": 6.814345991561182e-06,
-      "loss": 0.0161,
       "step": 2500
     },
     {
-      "epoch": 8.0,
-      "eval_balanced accuracy": 0.7519480763726148,
-      "eval_f1": 0.7441340002103095,
-      "eval_loss": 0.10090441256761551,
-      "eval_precision": 0.7421918161304624,
-      "eval_recall": 0.7519480763726148,
-      "eval_runtime": 5.4772,
-      "eval_samples_per_second": 230.774,
-      "eval_steps_per_second": 14.423,
-      "step": 2528
-    },
-    {
-      "epoch": 9.0,
-      "eval_balanced accuracy": 0.7372305744818235,
-      "eval_f1": 0.7418663358868686,
-      "eval_loss": 0.10627683997154236,
-      "eval_precision": 0.747694948865169,
-      "eval_recall": 0.7372305744818235,
-      "eval_runtime": 5.673,
-      "eval_samples_per_second": 222.809,
-      "eval_steps_per_second": 13.926,
-      "step": 2844
-    },
-    {
-      "epoch": 9.49,
-      "learning_rate": 4.177215189873418e-06,
-      "loss": 0.0107,
       "step": 3000
     },
     {
-      "epoch": 10.0,
-      "eval_balanced accuracy": 0.7454153105654866,
-      "eval_f1": 0.7532278014935634,
-      "eval_loss": 0.11291743814945221,
-      "eval_precision": 0.7635910633921945,
-      "eval_recall": 0.7454153105654866,
-      "eval_runtime": 5.7497,
-      "eval_samples_per_second": 219.839,
-      "eval_steps_per_second": 13.74,
-      "step": 3160
-    },
-    {
-      "epoch": 11.0,
-      "eval_balanced accuracy": 0.7422514651185799,
-      "eval_f1": 0.7462413455365297,
-      "eval_loss": 0.11802595853805542,
-      "eval_precision": 0.7518280300030182,
-      "eval_recall": 0.7422514651185799,
-      "eval_runtime": 5.6277,
-      "eval_samples_per_second": 224.602,
-      "eval_steps_per_second": 14.038,
-      "step": 3476
     },
     {
-      "epoch": 11.08,
-      "learning_rate": 1.5400843881856542e-06,
-      "loss": 0.007,
-      "step": 3500
     },
     {
-      "epoch": 12.0,
-      "eval_balanced accuracy": 0.7397630177088332,
-      "eval_f1": 0.7454360643197575,
-      "eval_loss": 0.11985792219638824,
-      "eval_precision": 0.7526407260582226,
-      "eval_recall": 0.7397630177088332,
-      "eval_runtime": 5.7001,
-      "eval_samples_per_second": 221.752,
-      "eval_steps_per_second": 13.859,
-      "step": 3792
     }
   ],
-  "max_steps": 3792,
-  "num_train_epochs": 12,
-  "total_flos": 302819736843288.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.03554883599281311,
+  "best_model_checkpoint": "MD_TL_best_model/checkpoint-4089",
+  "epoch": 3.0,
+  "global_step": 4089,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.37,
+      "learning_rate": 1.8777207141110298e-05,
+      "loss": 0.1048,
       "step": 500
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 1.7554414282220594e-05,
+      "loss": 0.0502,
       "step": 1000
     },
     {
+      "epoch": 1.0,
+      "eval_balanced accuracy": 0.7151924088243289,
+      "eval_f1": 0.7168079195427047,
+      "eval_loss": 0.04138244688510895,
+      "eval_precision": 0.7342695204092529,
+      "eval_recall": 0.7151924088243289,
+      "eval_runtime": 9.9389,
+      "eval_samples_per_second": 548.553,
+      "eval_steps_per_second": 34.31,
+      "step": 1363
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.633162142333089e-05,
+      "loss": 0.0401,
       "step": 1500
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 1.5108828564441186e-05,
+      "loss": 0.0326,
       "step": 2000
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 1.3886035705551482e-05,
+      "loss": 0.0311,
       "step": 2500
     },
     {
+      "epoch": 2.0,
+      "eval_balanced accuracy": 0.7398895952902634,
+      "eval_f1": 0.7495616067630219,
+      "eval_loss": 0.03639577701687813,
+      "eval_precision": 0.7655480981233173,
+      "eval_recall": 0.7398895952902634,
+      "eval_runtime": 4.3809,
+      "eval_samples_per_second": 1244.494,
+      "eval_steps_per_second": 77.838,
+      "step": 2726
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.2663242846661777e-05,
+      "loss": 0.025,
       "step": 3000
     },
     {
+      "epoch": 2.57,
+      "learning_rate": 1.1440449987772073e-05,
+      "loss": 0.0222,
+      "step": 3500
     },
     {
+      "epoch": 2.93,
+      "learning_rate": 1.0217657128882368e-05,
+      "loss": 0.0222,
+      "step": 4000
     },
     {
+      "epoch": 3.0,
+      "eval_balanced accuracy": 0.7662314481801649,
+      "eval_f1": 0.7739129932274338,
+      "eval_loss": 0.03554883599281311,
+      "eval_precision": 0.7868185694908753,
+      "eval_recall": 0.7662314481801649,
+      "eval_runtime": 4.3603,
+      "eval_samples_per_second": 1250.36,
+      "eval_steps_per_second": 78.205,
+      "step": 4089
     }
   ],
+  "max_steps": 8178,
+  "num_train_epochs": 6,
+  "total_flos": 355494913244352.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da42e7baa76de3c12fa9e7243405605b228d1c4584da43c52ec2fc2947df75f5
-size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b6e9aa13ae78015b3f03ad4ff668efbdebb9803fbdeefab5cace9c334a8bc7e
+size 3963