Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +388 -220
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,9 +19,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "dense_4h_to_h",
-    "dense",
     "query_key_value",
     "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM"

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "query_key_value",
+    "dense",
+    "dense_4h_to_h",
     "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM"

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bf82283c20826d6a4a34abaeea3f35b5c712d8aba82cad8dbe52e58882f6afc
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb7d053c5db954d9c46c98a456aa9c81806762e0254afbc771a6070b93b7b458
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23f6e9d6616ed7000e7d8f69286e68440bfa3a52b5dd41b8f82d9c38fa8e9406
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecb2bec54ed43396c2e0c0727d03f4f2ba604833feaa0ad1554b4d1b10bde55f
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbd4b572d58637569be1d3beaf58aef4ab1657fe3e125abb46978c795638ef8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd810bc6da3808c3f1be86070a1d84bdaa55b1f1611659061bb046875486c2d4
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68ca608482c17f9314e1c94cd309a18be088851d4c0591a9306e6a01c952c9f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5096170d1d34df4d83b07caa0860cfb37d7b3659bf8c113929aaa3a4f71f7094
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,451 +1,619 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.953846153846154,
   "eval_steps": 500,
-  "global_step": 144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "learning_rate": 8e-05,
-      "loss": 2.2151,
       "step": 2
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.00016,
-      "loss": 2.3087,
       "step": 4
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.0001999744599547812,
-      "loss": 2.3667,
       "step": 6
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00019977021786163598,
-      "loss": 2.5011,
       "step": 8
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 0.00019936215093023884,
-      "loss": 2.4286,
       "step": 10
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.00019875109281794825,
-      "loss": 2.4203,
       "step": 12
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 0.00019793829188147406,
-      "loss": 2.2626,
       "step": 14
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 0.00019692540862655585,
-      "loss": 2.2,
       "step": 16
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.00019571451231564525,
-      "loss": 2.5432,
       "step": 18
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 0.00019430807674052092,
-      "loss": 2.399,
       "step": 20
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 0.00019270897516847403,
-      "loss": 2.4603,
       "step": 22
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00019092047447238773,
-      "loss": 2.2575,
       "step": 24
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00018894622845670283,
-      "loss": 2.2481,
       "step": 26
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 0.00018679027039290497,
-      "loss": 2.2629,
       "step": 28
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.00018445700477978205,
-      "loss": 2.5683,
       "step": 30
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 0.00018195119834528534,
-      "loss": 2.3422,
       "step": 32
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.00017927797030837768,
-      "loss": 2.3204,
       "step": 34
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.0001764427819207624,
-      "loss": 2.318,
       "step": 36
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 0.00017345142530985887,
-      "loss": 2.2508,
       "step": 38
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.00017031001164581828,
-      "loss": 2.2968,
       "step": 40
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.0001670249586567531,
-      "loss": 2.2603,
       "step": 42
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.0001636029775176862,
-      "loss": 2.4402,
       "step": 44
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.00016005105914000507,
-      "loss": 2.3397,
       "step": 46
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 0.0001563764598894301,
-      "loss": 2.2608,
       "step": 48
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.00015258668676167546,
-      "loss": 2.0417,
       "step": 50
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.000148689482046087,
-      "loss": 2.297,
       "step": 52
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.00014469280750858854,
-      "loss": 2.1616,
       "step": 54
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 0.00014060482812625055,
-      "loss": 2.2691,
       "step": 56
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 0.00013643389540670962,
-      "loss": 2.2967,
       "step": 58
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 0.0001321885303265172,
-      "loss": 2.1486,
       "step": 60
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 0.0001278774059232723,
-      "loss": 2.0864,
       "step": 62
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 0.0001235093295771032,
-      "loss": 2.044,
       "step": 64
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 0.00011909322501769406,
-      "loss": 2.3136,
       "step": 66
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 0.00011463811409361667,
-      "loss": 2.3556,
       "step": 68
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 0.00011015309834121081,
-      "loss": 2.4312,
       "step": 70
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 0.00010564734039066699,
-      "loss": 2.1922,
       "step": 72
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 0.00010113004524729799,
-      "loss": 2.0871,
       "step": 74
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 9.661044148624037e-05,
-      "loss": 2.1988,
       "step": 76
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 9.209776239900453e-05,
-      "loss": 2.255,
       "step": 78
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 8.760122713038881e-05,
-      "loss": 2.3782,
       "step": 80
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 8.313002184429529e-05,
-      "loss": 2.196,
       "step": 82
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 7.869328095692312e-05,
-      "loss": 2.3759,
       "step": 84
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 7.430006847567972e-05,
-      "loss": 2.1787,
       "step": 86
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 6.995935948193294e-05,
-      "loss": 2.2547,
       "step": 88
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 6.568002179543409e-05,
-      "loss": 2.4197,
       "step": 90
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 6.147079785787038e-05,
-      "loss": 2.3039,
       "step": 92
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 5.734028687255751e-05,
-      "loss": 2.2513,
       "step": 94
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 5.329692723675994e-05,
-      "loss": 2.1533,
       "step": 96
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 4.934897930252886e-05,
-      "loss": 2.0451,
       "step": 98
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 4.550450850127625e-05,
-      "loss": 2.02,
       "step": 100
     },
     {
-      "epoch": 2.09,
-      "learning_rate": 4.1771368866560665e-05,
-      "loss": 2.2731,
       "step": 102
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 3.815718698874672e-05,
-      "loss": 2.4117,
       "step": 104
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 3.466934643431795e-05,
-      "loss": 2.2761,
       "step": 106
     },
     {
-      "epoch": 2.22,
-      "learning_rate": 3.131497266167357e-05,
-      "loss": 2.3457,
       "step": 108
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 2.81009184642253e-05,
-      "loss": 1.9155,
       "step": 110
     },
     {
-      "epoch": 2.3,
-      "learning_rate": 2.5033749970533015e-05,
-      "loss": 2.1173,
       "step": 112
     },
     {
-      "epoch": 2.34,
-      "learning_rate": 2.2119733230080408e-05,
-      "loss": 2.2136,
       "step": 114
     },
     {
-      "epoch": 2.38,
-      "learning_rate": 1.9364821412094857e-05,
-      "loss": 2.432,
       "step": 116
     },
     {
-      "epoch": 2.42,
-      "learning_rate": 1.6774642643563953e-05,
-      "loss": 2.2785,
       "step": 118
     },
     {
-      "epoch": 2.46,
-      "learning_rate": 1.4354488511294417e-05,
-      "loss": 2.1617,
       "step": 120
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 1.2109303251503434e-05,
-      "loss": 2.1157,
       "step": 122
     },
     {
-      "epoch": 2.54,
-      "learning_rate": 1.0043673649027518e-05,
-      "loss": 2.1812,
       "step": 124
     },
     {
-      "epoch": 2.58,
-      "learning_rate": 8.161819666783888e-06,
-      "loss": 2.0722,
       "step": 126
     },
     {
-      "epoch": 2.63,
-      "learning_rate": 6.467585824627887e-06,
-      "loss": 2.3153,
       "step": 128
     },
     {
-      "epoch": 2.67,
-      "learning_rate": 4.964433345219355e-06,
-      "loss": 2.2884,
       "step": 130
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 3.655433082942972e-06,
-      "loss": 2.0102,
       "step": 132
     },
     {
-      "epoch": 2.75,
-      "learning_rate": 2.5432592503288e-06,
-      "loss": 1.9512,
       "step": 134
     },
     {
-      "epoch": 2.79,
-      "learning_rate": 1.6301839547892328e-06,
-      "loss": 2.2504,
       "step": 136
     },
     {
-      "epoch": 2.83,
-      "learning_rate": 9.180725568338044e-07,
-      "loss": 2.217,
       "step": 138
     },
     {
-      "epoch": 2.87,
-      "learning_rate": 4.0837985924448984e-07,
-      "loss": 2.331,
       "step": 140
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 1.0214713499706597e-07,
-      "loss": 2.1635,
       "step": 142
     },
     {
-      "epoch": 2.95,
-      "learning_rate": 0.0,
-      "loss": 2.3516,
       "step": 144
     }
   ],
   "logging_steps": 2,
-  "max_steps": 144,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 6393487599157248.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9972041006523766,
   "eval_steps": 500,
+  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 2.3586,
       "step": 2
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00011428571428571428,
+      "loss": 2.162,
       "step": 4
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 2.0177,
       "step": 6
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.00019998688836656323,
+      "loss": 1.9121,
       "step": 8
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.0001998820159279591,
+      "loss": 1.7096,
       "step": 10
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.00019967238104745696,
+      "loss": 1.962,
       "step": 12
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.00019935820360309777,
+      "loss": 1.9894,
       "step": 14
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.00019893981312363562,
+      "loss": 1.9644,
       "step": 16
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00019841764844290744,
+      "loss": 2.76,
       "step": 18
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00019779225723955707,
+      "loss": 1.9172,
       "step": 20
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00019706429546259593,
+      "loss": 1.7235,
       "step": 22
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.00019623452664340306,
+      "loss": 1.7437,
       "step": 24
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.0001953038210948861,
+      "loss": 1.6974,
       "step": 26
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.00019427315499864344,
+      "loss": 1.6471,
       "step": 28
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00019314360938108425,
+      "loss": 1.795,
       "step": 30
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00019191636897958122,
+      "loss": 1.7032,
       "step": 32
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.0001905927209998447,
+      "loss": 1.9127,
       "step": 34
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00018917405376582145,
+      "loss": 1.7574,
       "step": 36
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.0001876618552635348,
+      "loss": 1.6811,
       "step": 38
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.00018605771158039253,
+      "loss": 1.725,
       "step": 40
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00018436330524160047,
+      "loss": 1.4664,
       "step": 42
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.00018258041344542566,
+      "loss": 1.6107,
       "step": 44
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00018071090619916093,
+      "loss": 1.8359,
       "step": 46
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.00017875674435774547,
+      "loss": 1.6842,
       "step": 48
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.00017671997756709863,
+      "loss": 2.5867,
       "step": 50
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.0001746027421143246,
+      "loss": 1.7532,
       "step": 52
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00017240725868704218,
+      "loss": 1.7108,
       "step": 54
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00017013583004418993,
+      "loss": 1.8096,
       "step": 56
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 0.00016779083860075033,
+      "loss": 1.3886,
       "step": 58
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.00016537474392892528,
+      "loss": 1.6365,
       "step": 60
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 0.00016289008017838445,
+      "loss": 1.5767,
       "step": 62
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.00016033945341829248,
+      "loss": 1.5843,
       "step": 64
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 0.00015772553890390197,
+      "loss": 1.8543,
       "step": 66
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.00015505107827058036,
+      "loss": 2.2743,
       "step": 68
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.000152318876658213,
+      "loss": 2.2094,
       "step": 70
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.00014953179976899878,
+      "loss": 1.6459,
       "step": 72
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00014669277086172406,
+      "loss": 1.7053,
       "step": 74
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00014380476768566824,
+      "loss": 1.5764,
       "step": 76
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.00014087081935735564,
+      "loss": 1.3565,
       "step": 78
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00013789400318343068,
+      "loss": 1.4764,
       "step": 80
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00013487744143298822,
+      "loss": 1.5535,
       "step": 82
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 0.0001318242980627444,
+      "loss": 1.5302,
       "step": 84
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 0.00012873777539848283,
+      "loss": 1.8395,
       "step": 86
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 0.00012562111077625722,
+      "loss": 1.6544,
       "step": 88
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 0.00012247757314687297,
+      "loss": 1.574,
       "step": 90
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.00011931045964720881,
+      "loss": 1.5317,
       "step": 92
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 0.00011612309214197599,
+      "loss": 1.3428,
       "step": 94
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.00011291881373954065,
+      "loss": 1.5308,
       "step": 96
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 0.00010970098528546481,
+      "loss": 1.5653,
       "step": 98
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 0.00010647298183744359,
+      "loss": 1.5217,
       "step": 100
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 0.00010323818912533561,
+      "loss": 2.0985,
       "step": 102
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 0.0001,
+      "loss": 1.6621,
       "step": 104
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 9.676181087466444e-05,
+      "loss": 1.5929,
       "step": 106
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 9.352701816255643e-05,
+      "loss": 1.6037,
       "step": 108
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 9.02990147145352e-05,
+      "loss": 1.3565,
       "step": 110
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 8.70811862604594e-05,
+      "loss": 1.4116,
       "step": 112
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.387690785802402e-05,
+      "loss": 1.6237,
       "step": 114
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 8.068954035279121e-05,
+      "loss": 1.7385,
       "step": 116
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 7.75224268531271e-05,
+      "loss": 2.2754,
       "step": 118
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 7.437888922374276e-05,
+      "loss": 1.5661,
       "step": 120
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 7.126222460151719e-05,
+      "loss": 1.7311,
       "step": 122
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 6.817570193725564e-05,
+      "loss": 1.5312,
       "step": 124
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 6.512255856701177e-05,
+      "loss": 1.391,
       "step": 126
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 6.210599681656933e-05,
+      "loss": 1.3985,
       "step": 128
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 5.9129180642644414e-05,
+      "loss": 1.5069,
       "step": 130
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 5.6195232314331766e-05,
+      "loss": 1.4259,
       "step": 132
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 5.3307229138275936e-05,
+      "loss": 1.5473,
       "step": 134
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 5.0468200231001286e-05,
+      "loss": 1.9502,
       "step": 136
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 4.768112334178699e-05,
+      "loss": 1.6592,
       "step": 138
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 4.494892172941965e-05,
+      "loss": 1.5564,
       "step": 140
     },
     {
+      "epoch": 2.12,
+      "learning_rate": 4.227446109609809e-05,
+      "loss": 1.6098,
       "step": 142
     },
     {
+      "epoch": 2.15,
+      "learning_rate": 3.966054658170754e-05,
+      "loss": 1.2925,
       "step": 144
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.710991982161555e-05,
+      "loss": 1.4613,
+      "step": 146
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 3.4625256071074773e-05,
+      "loss": 1.4148,
+      "step": 148
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 3.2209161399249674e-05,
+      "loss": 1.3662,
+      "step": 150
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 2.9864169955810084e-05,
+      "loss": 2.1277,
+      "step": 152
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.759274131295787e-05,
+      "loss": 1.8296,
+      "step": 154
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 2.5397257885675397e-05,
+      "loss": 1.609,
+      "step": 156
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.3280022432901383e-05,
+      "loss": 1.6705,
+      "step": 158
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 2.1243255642254578e-05,
+      "loss": 1.4399,
+      "step": 160
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.9289093800839066e-05,
+      "loss": 1.271,
+      "step": 162
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.741958655457436e-05,
+      "loss": 1.3362,
+      "step": 164
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.563669475839956e-05,
+      "loss": 1.3983,
+      "step": 166
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 1.3942288419607475e-05,
+      "loss": 2.5072,
+      "step": 168
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.233814473646524e-05,
+      "loss": 1.8437,
+      "step": 170
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.0825946234178574e-05,
+      "loss": 1.6483,
+      "step": 172
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 9.407279000155312e-06,
+      "loss": 1.5843,
+      "step": 174
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 8.083631020418791e-06,
+      "loss": 1.231,
+      "step": 176
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.856390618915775e-06,
+      "loss": 1.3115,
+      "step": 178
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.726845001356573e-06,
+      "loss": 1.4052,
+      "step": 180
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 4.6961789051139124e-06,
+      "loss": 1.0685,
+      "step": 182
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3.7654733565969826e-06,
+      "loss": 2.13,
+      "step": 184
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.9357045374040825e-06,
+      "loss": 1.6736,
+      "step": 186
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.2077427604429433e-06,
+      "loss": 1.6618,
+      "step": 188
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5823515570925763e-06,
+      "loss": 1.6082,
+      "step": 190
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.0601868763643996e-06,
+      "loss": 1.4342,
+      "step": 192
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 6.41796396902239e-07,
+      "loss": 1.2327,
+      "step": 194
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 3.2761895254306287e-07,
+      "loss": 1.4817,
+      "step": 196
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.179840720409331e-07,
+      "loss": 1.015,
+      "step": 198
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.3111633436779791e-08,
+      "loss": 1.6181,
+      "step": 200
     }
   ],
   "logging_steps": 2,
+  "max_steps": 201,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 8958427177402368.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fe2e827eb6206105b07079a3b30f17479fed73be174922d87993b1034d0bd65
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b37df8cd675a96fd62739792548139099638fde02917db6a4e57e9644200937
 size 4600