Add 1850000

Browse files

Files changed (8) hide show

added_tokens.json +1 -1
config.json +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +1124 -11
training_args.bin +1 -1

added_tokens.json CHANGED Viewed

@@ -1 +1 @@

- {"~~PROFANITY_TOKEN~~": ~~32110~~, "~~NO_SEGMENT_TOKEN~~": ~~32111~~, "~~[Music]~~": ~~32107~~, "~~NUMBER_TOKEN~~": ~~32104~~, "~~URL_TOKEN~~": ~~32101~~, "~~HYPHENATED_URL_TOKEN~~": ~~32102~~, "~~BETWEEN_SEGMENTS_TOKEN~~": ~~32118~~, "~~NUMBER_PERCENTAGE_TOKEN~~": ~~32103~~, "~~SHORT_HYPHENATED_TOKEN~~": ~~32105~~, "[~~Laughter~~]": ~~32109~~, "~~START_INTERACTION_TOKEN~~": ~~32116~~, "~~END_INTERACTION_TOKEN~~": ~~32117~~, "~~[Applause]~~": ~~32108~~, "~~END_SPONSOR_TOKEN~~": ~~32113~~, "~~END_SELFPROMO_TOKEN~~": ~~32115~~, "~~LONG_WORD_TOKEN~~": ~~32106~~, "~~START_SELFPROMO_TOKEN~~": ~~32114~~, "~~EXTRACT_SEGMENTS:~~ ": ~~32100~~, "~~START_SPONSOR_TOKEN~~": ~~32112~~}

+ {"START_SPONSOR_TOKEN": 32112, "LONG_WORD_TOKEN": 32106, "BETWEEN_SEGMENTS_TOKEN": 32118, "SHORT_HYPHENATED_TOKEN": 32105, "[Laughter]": 32109, "END_SPONSOR_TOKEN": 32113, "NUMBER_PERCENTAGE_TOKEN": 32103, "NO_SEGMENT_TOKEN": 32111, "START_SELFPROMO_TOKEN": 32114, "[Applause]": 32108, "URL_TOKEN": 32101, "EXTRACT_SEGMENTS: ": 32100, "START_INTERACTION_TOKEN": 32116, "PROFANITY_TOKEN": 32110, "HYPHENATED_URL_TOKEN": 32102, "[Music]": 32107, "END_INTERACTION_TOKEN": 32117, "END_SELFPROMO_TOKEN": 32115, "NUMBER_TOKEN": 32104}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/1TB_SSD/SB_AI/out_orig2",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "/1TB_SSD/SB_AI/out_epoch1/out/checkpoint-1115000/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fb22fb40259e3ef7d648c85bc99a714855c5d5d75c32dd548bebf38df101aea
 size 891703231

 version https://git-lfs.github.com/spec/v1
+oid sha256:afdfb877d569756c5d3e589de624b065735445d4431398f5ec538b4f3ee17e99
 size 891703231

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:587906ddc876c2af39b06c057f327311bae563143c1e8d8b0e4f83d52a3778ec
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:867ce08b496f6dc7dd44b00318be2bd40fa0c1f470100e78a8ccca16dc0eb97f
 size 14439

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:774aaedff89f9ea48d153c07a6d564ddd201d61e5ed5d666b9d6573ead684ccb
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c476f8e287d72e82b2fe676d2e42ba4bc778d9bb83ac44801844f0c68ef1e65d
 size 623

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "/1TB_SSD/SB_AI/~~out_orig2~~", "tokenizer_class": "T5Tokenizer"}

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "/1TB_SSD/SB_AI/out_epoch1/out/checkpoint-1115000/", "tokenizer_class": "T5Tokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "global_step": 1116594,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1459,17 +1459,1130 @@
     },
     {
       "epoch": 1.0,
-      "step": 1116594,
-      "total_flos": 3.3533589180916224e+17,
-      "train_loss": 0.0695511792498969,
-      "train_runtime": 176193.0564,
-      "train_samples_per_second": 6.337,
-      "train_steps_per_second": 6.337
     }
   ],
-  "max_steps": 1116594,
-  "num_train_epochs": 1,
-  "total_flos": 3.3533589180916224e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.656824235129331,
+  "global_step": 1850000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.492374130615067e-05,
+      "loss": 0.0633,
+      "step": 1120000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.4811793722695988e-05,
+      "loss": 0.0625,
+      "step": 1125000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.06666136533021927,
+      "eval_runtime": 1682.1519,
+      "eval_samples_per_second": 36.877,
+      "eval_steps_per_second": 36.877,
+      "step": 1125000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.46998461392413e-05,
+      "loss": 0.0645,
+      "step": 1130000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.4587898555786618e-05,
+      "loss": 0.058,
+      "step": 1135000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.4475950972331933e-05,
+      "loss": 0.0644,
+      "step": 1140000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.4364003388877245e-05,
+      "loss": 0.0599,
+      "step": 1145000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.4252055805422564e-05,
+      "loss": 0.0614,
+      "step": 1150000
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.06576403230428696,
+      "eval_runtime": 1686.8754,
+      "eval_samples_per_second": 36.774,
+      "eval_steps_per_second": 36.774,
+      "step": 1150000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.414010822196788e-05,
+      "loss": 0.0637,
+      "step": 1155000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.4028160638513194e-05,
+      "loss": 0.058,
+      "step": 1160000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.391621305505851e-05,
+      "loss": 0.0623,
+      "step": 1165000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.3804265471603828e-05,
+      "loss": 0.0628,
+      "step": 1170000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.369231788814914e-05,
+      "loss": 0.0597,
+      "step": 1175000
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.06830067932605743,
+      "eval_runtime": 1683.3372,
+      "eval_samples_per_second": 36.851,
+      "eval_steps_per_second": 36.851,
+      "step": 1175000
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 2.3580370304694455e-05,
+      "loss": 0.0622,
+      "step": 1180000
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 2.3468422721239773e-05,
+      "loss": 0.0579,
+      "step": 1185000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.3356475137785085e-05,
+      "loss": 0.0644,
+      "step": 1190000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.3244527554330404e-05,
+      "loss": 0.063,
+      "step": 1195000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.313257997087572e-05,
+      "loss": 0.0629,
+      "step": 1200000
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.0691303089261055,
+      "eval_runtime": 1683.681,
+      "eval_samples_per_second": 36.844,
+      "eval_steps_per_second": 36.844,
+      "step": 1200000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.3020632387421034e-05,
+      "loss": 0.0647,
+      "step": 1205000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.290868480396635e-05,
+      "loss": 0.0645,
+      "step": 1210000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.2796737220511664e-05,
+      "loss": 0.063,
+      "step": 1215000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.268478963705698e-05,
+      "loss": 0.0638,
+      "step": 1220000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.2572842053602295e-05,
+      "loss": 0.0603,
+      "step": 1225000
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.06777703762054443,
+      "eval_runtime": 1680.6968,
+      "eval_samples_per_second": 36.909,
+      "eval_steps_per_second": 36.909,
+      "step": 1225000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.246089447014761e-05,
+      "loss": 0.0612,
+      "step": 1230000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.2348946886692925e-05,
+      "loss": 0.0586,
+      "step": 1235000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.2236999303238244e-05,
+      "loss": 0.0607,
+      "step": 1240000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.212505171978356e-05,
+      "loss": 0.0653,
+      "step": 1245000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.201310413632887e-05,
+      "loss": 0.0601,
+      "step": 1250000
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.07459407299757004,
+      "eval_runtime": 1683.3206,
+      "eval_samples_per_second": 36.852,
+      "eval_steps_per_second": 36.852,
+      "step": 1250000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.190115655287419e-05,
+      "loss": 0.0638,
+      "step": 1255000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.1789208969419504e-05,
+      "loss": 0.0634,
+      "step": 1260000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.167726138596482e-05,
+      "loss": 0.0622,
+      "step": 1265000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 2.1565313802510135e-05,
+      "loss": 0.0593,
+      "step": 1270000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 2.145336621905545e-05,
+      "loss": 0.0606,
+      "step": 1275000
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.06908420473337173,
+      "eval_runtime": 1680.5541,
+      "eval_samples_per_second": 36.912,
+      "eval_steps_per_second": 36.912,
+      "step": 1275000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.1341418635600765e-05,
+      "loss": 0.0612,
+      "step": 1280000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.122947105214608e-05,
+      "loss": 0.066,
+      "step": 1285000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.1117523468691396e-05,
+      "loss": 0.0562,
+      "step": 1290000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.100557588523671e-05,
+      "loss": 0.0617,
+      "step": 1295000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.089362830178203e-05,
+      "loss": 0.0671,
+      "step": 1300000
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.07024173438549042,
+      "eval_runtime": 1683.3132,
+      "eval_samples_per_second": 36.852,
+      "eval_steps_per_second": 36.852,
+      "step": 1300000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.078168071832734e-05,
+      "loss": 0.0578,
+      "step": 1305000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.066973313487266e-05,
+      "loss": 0.0592,
+      "step": 1310000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 2.0557785551417975e-05,
+      "loss": 0.0607,
+      "step": 1315000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 2.0445837967963287e-05,
+      "loss": 0.0645,
+      "step": 1320000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.0333890384508605e-05,
+      "loss": 0.0625,
+      "step": 1325000
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.06607282906770706,
+      "eval_runtime": 1680.5346,
+      "eval_samples_per_second": 36.913,
+      "eval_steps_per_second": 36.913,
+      "step": 1325000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.022194280105392e-05,
+      "loss": 0.0625,
+      "step": 1330000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.0109995217599236e-05,
+      "loss": 0.0605,
+      "step": 1335000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.999804763414455e-05,
+      "loss": 0.0592,
+      "step": 1340000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.9886100050689866e-05,
+      "loss": 0.0652,
+      "step": 1345000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.977415246723518e-05,
+      "loss": 0.0617,
+      "step": 1350000
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.0687505304813385,
+      "eval_runtime": 1680.1242,
+      "eval_samples_per_second": 36.922,
+      "eval_steps_per_second": 36.922,
+      "step": 1350000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.9662204883780496e-05,
+      "loss": 0.0607,
+      "step": 1355000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.9550257300325815e-05,
+      "loss": 0.0619,
+      "step": 1360000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.9438309716871127e-05,
+      "loss": 0.0629,
+      "step": 1365000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.9326362133416445e-05,
+      "loss": 0.0637,
+      "step": 1370000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.921441454996176e-05,
+      "loss": 0.0579,
+      "step": 1375000
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.06793049722909927,
+      "eval_runtime": 1680.8053,
+      "eval_samples_per_second": 36.907,
+      "eval_steps_per_second": 36.907,
+      "step": 1375000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.9102466966507072e-05,
+      "loss": 0.0632,
+      "step": 1380000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.899051938305239e-05,
+      "loss": 0.0593,
+      "step": 1385000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.8878571799597706e-05,
+      "loss": 0.0622,
+      "step": 1390000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.876662421614302e-05,
+      "loss": 0.064,
+      "step": 1395000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.8654676632688336e-05,
+      "loss": 0.0663,
+      "step": 1400000
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.0633900910615921,
+      "eval_runtime": 1680.7989,
+      "eval_samples_per_second": 36.907,
+      "eval_steps_per_second": 36.907,
+      "step": 1400000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.8542729049233655e-05,
+      "loss": 0.0606,
+      "step": 1405000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.8430781465778967e-05,
+      "loss": 0.0633,
+      "step": 1410000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.8318833882324282e-05,
+      "loss": 0.064,
+      "step": 1415000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.82068862988696e-05,
+      "loss": 0.0573,
+      "step": 1420000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.8094938715414912e-05,
+      "loss": 0.0583,
+      "step": 1425000
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.063847616314888,
+      "eval_runtime": 1680.6703,
+      "eval_samples_per_second": 36.91,
+      "eval_steps_per_second": 36.91,
+      "step": 1425000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.798299113196023e-05,
+      "loss": 0.0669,
+      "step": 1430000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.7871043548505546e-05,
+      "loss": 0.0576,
+      "step": 1435000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.775909596505086e-05,
+      "loss": 0.0603,
+      "step": 1440000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.7647148381596177e-05,
+      "loss": 0.0628,
+      "step": 1445000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.7535200798141492e-05,
+      "loss": 0.0623,
+      "step": 1450000
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.06811905652284622,
+      "eval_runtime": 1680.0308,
+      "eval_samples_per_second": 36.924,
+      "eval_steps_per_second": 36.924,
+      "step": 1450000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.7423253214686807e-05,
+      "loss": 0.066,
+      "step": 1455000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.7311305631232122e-05,
+      "loss": 0.0645,
+      "step": 1460000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.719935804777744e-05,
+      "loss": 0.0673,
+      "step": 1465000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.7087410464322753e-05,
+      "loss": 0.0601,
+      "step": 1470000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.697546288086807e-05,
+      "loss": 0.0615,
+      "step": 1475000
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.06700597703456879,
+      "eval_runtime": 1680.6996,
+      "eval_samples_per_second": 36.909,
+      "eval_steps_per_second": 36.909,
+      "step": 1475000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.6863515297413386e-05,
+      "loss": 0.0651,
+      "step": 1480000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.6751567713958698e-05,
+      "loss": 0.0596,
+      "step": 1485000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.6639620130504017e-05,
+      "loss": 0.0616,
+      "step": 1490000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.6527672547049332e-05,
+      "loss": 0.0609,
+      "step": 1495000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.6415724963594647e-05,
+      "loss": 0.0592,
+      "step": 1500000
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.06664443016052246,
+      "eval_runtime": 1681.9546,
+      "eval_samples_per_second": 36.881,
+      "eval_steps_per_second": 36.881,
+      "step": 1500000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.6303777380139962e-05,
+      "loss": 0.0618,
+      "step": 1505000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.6191829796685277e-05,
+      "loss": 0.0586,
+      "step": 1510000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.6079882213230593e-05,
+      "loss": 0.0611,
+      "step": 1515000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.5967934629775908e-05,
+      "loss": 0.0635,
+      "step": 1520000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.5855987046321223e-05,
+      "loss": 0.0626,
+      "step": 1525000
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.06663180142641068,
+      "eval_runtime": 1679.9392,
+      "eval_samples_per_second": 36.926,
+      "eval_steps_per_second": 36.926,
+      "step": 1525000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.5744039462866538e-05,
+      "loss": 0.0637,
+      "step": 1530000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.5632091879411857e-05,
+      "loss": 0.0582,
+      "step": 1535000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.5520144295957172e-05,
+      "loss": 0.0618,
+      "step": 1540000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.5408196712502487e-05,
+      "loss": 0.0594,
+      "step": 1545000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.5296249129047802e-05,
+      "loss": 0.063,
+      "step": 1550000
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.06467917561531067,
+      "eval_runtime": 1681.2275,
+      "eval_samples_per_second": 36.897,
+      "eval_steps_per_second": 36.897,
+      "step": 1550000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.5184301545593116e-05,
+      "loss": 0.0637,
+      "step": 1555000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.5072353962138433e-05,
+      "loss": 0.0641,
+      "step": 1560000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.4960406378683748e-05,
+      "loss": 0.0615,
+      "step": 1565000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1.4848458795229065e-05,
+      "loss": 0.061,
+      "step": 1570000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1.4736511211774378e-05,
+      "loss": 0.0648,
+      "step": 1575000
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.06533137708902359,
+      "eval_runtime": 1677.1597,
+      "eval_samples_per_second": 36.987,
+      "eval_steps_per_second": 36.987,
+      "step": 1575000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.4624563628319693e-05,
+      "loss": 0.0623,
+      "step": 1580000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.451261604486501e-05,
+      "loss": 0.0631,
+      "step": 1585000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.4400668461410324e-05,
+      "loss": 0.0613,
+      "step": 1590000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.428872087795564e-05,
+      "loss": 0.0611,
+      "step": 1595000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.4176773294500956e-05,
+      "loss": 0.0611,
+      "step": 1600000
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.06996028870344162,
+      "eval_runtime": 1678.7591,
+      "eval_samples_per_second": 36.952,
+      "eval_steps_per_second": 36.952,
+      "step": 1600000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.4064825711046273e-05,
+      "loss": 0.0629,
+      "step": 1605000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.3952878127591586e-05,
+      "loss": 0.0607,
+      "step": 1610000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.3840930544136901e-05,
+      "loss": 0.0653,
+      "step": 1615000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.3728982960682218e-05,
+      "loss": 0.0608,
+      "step": 1620000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.3617035377227534e-05,
+      "loss": 0.0622,
+      "step": 1625000
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.0634424015879631,
+      "eval_runtime": 1677.9992,
+      "eval_samples_per_second": 36.968,
+      "eval_steps_per_second": 36.968,
+      "step": 1625000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.350508779377285e-05,
+      "loss": 0.0622,
+      "step": 1630000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.3393140210318164e-05,
+      "loss": 0.0634,
+      "step": 1635000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.328119262686348e-05,
+      "loss": 0.059,
+      "step": 1640000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.3169245043408796e-05,
+      "loss": 0.0608,
+      "step": 1645000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.305729745995411e-05,
+      "loss": 0.0617,
+      "step": 1650000
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.06513845920562744,
+      "eval_runtime": 1682.3756,
+      "eval_samples_per_second": 36.872,
+      "eval_steps_per_second": 36.872,
+      "step": 1650000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.2945349876499426e-05,
+      "loss": 0.0622,
+      "step": 1655000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.2833402293044742e-05,
+      "loss": 0.0603,
+      "step": 1660000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.2721454709590058e-05,
+      "loss": 0.0647,
+      "step": 1665000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2609507126135372e-05,
+      "loss": 0.0579,
+      "step": 1670000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2497559542680689e-05,
+      "loss": 0.0613,
+      "step": 1675000
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.0634496882557869,
+      "eval_runtime": 1679.6133,
+      "eval_samples_per_second": 36.933,
+      "eval_steps_per_second": 36.933,
+      "step": 1675000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.2385611959226004e-05,
+      "loss": 0.0574,
+      "step": 1680000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.227366437577132e-05,
+      "loss": 0.0574,
+      "step": 1685000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.2161716792316636e-05,
+      "loss": 0.0616,
+      "step": 1690000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.2049769208861951e-05,
+      "loss": 0.06,
+      "step": 1695000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.1937821625407265e-05,
+      "loss": 0.0639,
+      "step": 1700000
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.0661427304148674,
+      "eval_runtime": 1685.0546,
+      "eval_samples_per_second": 36.814,
+      "eval_steps_per_second": 36.814,
+      "step": 1700000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.1825874041952582e-05,
+      "loss": 0.0638,
+      "step": 1705000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.1713926458497897e-05,
+      "loss": 0.0618,
+      "step": 1710000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.1601978875043212e-05,
+      "loss": 0.0616,
+      "step": 1715000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.1490031291588529e-05,
+      "loss": 0.0597,
+      "step": 1720000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.1378083708133844e-05,
+      "loss": 0.0615,
+      "step": 1725000
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.06442756205797195,
+      "eval_runtime": 1688.2768,
+      "eval_samples_per_second": 36.743,
+      "eval_steps_per_second": 36.743,
+      "step": 1725000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.126613612467916e-05,
+      "loss": 0.0627,
+      "step": 1730000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.1154188541224474e-05,
+      "loss": 0.0599,
+      "step": 1735000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1.104224095776979e-05,
+      "loss": 0.0609,
+      "step": 1740000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1.0930293374315105e-05,
+      "loss": 0.067,
+      "step": 1745000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.081834579086042e-05,
+      "loss": 0.0605,
+      "step": 1750000
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.06615401804447174,
+      "eval_runtime": 1682.0319,
+      "eval_samples_per_second": 36.88,
+      "eval_steps_per_second": 36.88,
+      "step": 1750000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.0706398207405737e-05,
+      "loss": 0.0603,
+      "step": 1755000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1.0594450623951052e-05,
+      "loss": 0.0578,
+      "step": 1760000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1.0482503040496367e-05,
+      "loss": 0.0658,
+      "step": 1765000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0370555457041682e-05,
+      "loss": 0.0594,
+      "step": 1770000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0258607873586998e-05,
+      "loss": 0.0622,
+      "step": 1775000
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.06558772176504135,
+      "eval_runtime": 1679.2015,
+      "eval_samples_per_second": 36.942,
+      "eval_steps_per_second": 36.942,
+      "step": 1775000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.0146660290132313e-05,
+      "loss": 0.0654,
+      "step": 1780000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.003471270667763e-05,
+      "loss": 0.0629,
+      "step": 1785000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 9.922765123222945e-06,
+      "loss": 0.0541,
+      "step": 1790000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.81081753976826e-06,
+      "loss": 0.0605,
+      "step": 1795000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.698869956313575e-06,
+      "loss": 0.0585,
+      "step": 1800000
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.0633106529712677,
+      "eval_runtime": 1681.6891,
+      "eval_samples_per_second": 36.887,
+      "eval_steps_per_second": 36.887,
+      "step": 1800000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.58692237285889e-06,
+      "loss": 0.0654,
+      "step": 1805000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.474974789404206e-06,
+      "loss": 0.0622,
+      "step": 1810000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.363027205949523e-06,
+      "loss": 0.0612,
+      "step": 1815000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.251079622494838e-06,
+      "loss": 0.056,
+      "step": 1820000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.139132039040153e-06,
+      "loss": 0.0628,
+      "step": 1825000
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.06252375990152359,
+      "eval_runtime": 1681.1292,
+      "eval_samples_per_second": 36.9,
+      "eval_steps_per_second": 36.9,
+      "step": 1825000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.02718445558547e-06,
+      "loss": 0.0619,
+      "step": 1830000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 8.915236872130783e-06,
+      "loss": 0.063,
+      "step": 1835000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 8.803289288676098e-06,
+      "loss": 0.0607,
+      "step": 1840000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 8.691341705221415e-06,
+      "loss": 0.0633,
+      "step": 1845000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 8.57939412176673e-06,
+      "loss": 0.0638,
+      "step": 1850000
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.06624045222997665,
+      "eval_runtime": 1680.5873,
+      "eval_samples_per_second": 36.912,
+      "eval_steps_per_second": 36.912,
+      "step": 1850000
     }
   ],
+  "max_steps": 2233188,
+  "num_train_epochs": 2,
+  "total_flos": 5.556070184057856e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:626bad985fb1862f6b32ba4ebd7449b96bad7c0595dcabc271cd02a0adcc193d
 size 3119

 version https://git-lfs.github.com/spec/v1
+oid sha256:70b443918dd5518fff4a7556be44b80bcda3039466b050dbf86c95c0ba51c348
 size 3119