Upload 8 files

Browse files

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +231 -631
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a1e9a60b91ab1ff423e42b69a9585990dbff8f041adeb2669137349ce385df1
 size 995641861

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff010bc66fd61f1d34710e22fc453cbd4986ef52cbca0f808e71d2287359c01a
 size 995641861

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdceaa2fa53da129ce343dd96a07c92e444e7dddec6dba851b45a46e5a39cf91
 size 497807197

 version https://git-lfs.github.com/spec/v1
+oid sha256:86bf6ab09b64321efc94f3bc379e531d0a1338c8c5fa3b38c7c52464847c79d8
 size 497807197

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:370c3a07f37a8aae6ea141b54ca992b21699546baf7407eb587b6056f787333b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd3a816ab8628e6038ecf426e93a907752049203fbc39b63fcde557182a866f
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39651c15c8edcba0e527a13c5e91b60df7995ee89991b270f951b1ffc793ec92
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b18054e524341e87a895cc798ffc44bc6c3d095dc41640d72b87475609e792
 size 627

trainer_state.json CHANGED Viewed

@@ -1,851 +1,451 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 64056,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06,
-      "learning_rate": 9.968777319845137e-06,
-      "loss": 3.8481,
       "step": 500
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.937554639690272e-06,
-      "loss": 3.0215,
       "step": 1000
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 9.906331959535406e-06,
-      "loss": 2.564,
       "step": 1500
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 9.875109279380542e-06,
-      "loss": 2.3377,
       "step": 2000
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 9.843886599225678e-06,
-      "loss": 2.2458,
       "step": 2500
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 9.812663919070815e-06,
-      "loss": 2.1878,
       "step": 3000
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 9.78144123891595e-06,
-      "loss": 2.143,
       "step": 3500
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 9.750218558761085e-06,
-      "loss": 2.113,
       "step": 4000
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.71899587860622e-06,
-      "loss": 2.0957,
       "step": 4500
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 9.687773198451356e-06,
-      "loss": 2.0639,
       "step": 5000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 9.65655051829649e-06,
-      "loss": 2.0461,
       "step": 5500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 9.625327838141627e-06,
-      "loss": 2.0174,
       "step": 6000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 9.594105157986763e-06,
-      "loss": 2.0111,
       "step": 6500
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 9.562882477831898e-06,
-      "loss": 1.9898,
       "step": 7000
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 9.531659797677034e-06,
-      "loss": 1.98,
       "step": 7500
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 9.500437117522168e-06,
-      "loss": 1.9702,
       "step": 8000
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 1.9547929763793945,
-      "eval_runtime": 33.4979,
-      "eval_samples_per_second": 42.421,
-      "eval_steps_per_second": 5.314,
-      "step": 8007
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 9.469214437367304e-06,
-      "loss": 1.9463,
       "step": 8500
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 9.43799175721244e-06,
-      "loss": 1.9336,
       "step": 9000
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 9.406769077057575e-06,
-      "loss": 1.9187,
       "step": 9500
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 9.37554639690271e-06,
-      "loss": 1.9095,
       "step": 10000
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 9.344323716747846e-06,
-      "loss": 1.903,
       "step": 10500
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 9.313101036592982e-06,
-      "loss": 1.8976,
       "step": 11000
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 9.281878356438118e-06,
-      "loss": 1.8823,
       "step": 11500
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 9.250655676283253e-06,
-      "loss": 1.8908,
       "step": 12000
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 9.219432996128387e-06,
-      "loss": 1.872,
       "step": 12500
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 9.188210315973524e-06,
-      "loss": 1.8637,
       "step": 13000
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 9.15698763581866e-06,
-      "loss": 1.8651,
       "step": 13500
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 9.125764955663794e-06,
-      "loss": 1.8496,
       "step": 14000
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 9.09454227550893e-06,
-      "loss": 1.8411,
       "step": 14500
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 9.063319595354067e-06,
-      "loss": 1.8354,
       "step": 15000
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 9.032096915199201e-06,
-      "loss": 1.8307,
       "step": 15500
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 9.000874235044337e-06,
-      "loss": 1.8301,
       "step": 16000
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 1.8236933946609497,
-      "eval_runtime": 33.5205,
-      "eval_samples_per_second": 42.392,
-      "eval_steps_per_second": 5.31,
-      "step": 16014
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 8.969651554889472e-06,
-      "loss": 1.8129,
       "step": 16500
     },
     {
-      "epoch": 2.12,
-      "learning_rate": 8.938428874734608e-06,
-      "loss": 1.8119,
       "step": 17000
     },
     {
-      "epoch": 2.19,
-      "learning_rate": 8.907206194579744e-06,
-      "loss": 1.797,
       "step": 17500
     },
     {
-      "epoch": 2.25,
-      "learning_rate": 8.875983514424879e-06,
-      "loss": 1.8038,
       "step": 18000
     },
     {
-      "epoch": 2.31,
-      "learning_rate": 8.844760834270013e-06,
-      "loss": 1.8043,
       "step": 18500
     },
     {
-      "epoch": 2.37,
-      "learning_rate": 8.81353815411515e-06,
-      "loss": 1.7932,
       "step": 19000
     },
     {
-      "epoch": 2.44,
-      "learning_rate": 8.782315473960286e-06,
-      "loss": 1.7881,
       "step": 19500
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 8.751092793805422e-06,
-      "loss": 1.7729,
       "step": 20000
     },
     {
-      "epoch": 2.56,
-      "learning_rate": 8.719870113650557e-06,
-      "loss": 1.7718,
       "step": 20500
     },
     {
-      "epoch": 2.62,
-      "learning_rate": 8.688647433495691e-06,
-      "loss": 1.7715,
       "step": 21000
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 8.657424753340827e-06,
-      "loss": 1.7664,
       "step": 21500
     },
     {
-      "epoch": 2.75,
-      "learning_rate": 8.626202073185963e-06,
-      "loss": 1.7619,
       "step": 22000
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 8.594979393031098e-06,
-      "loss": 1.7563,
       "step": 22500
     },
     {
-      "epoch": 2.87,
-      "learning_rate": 8.563756712876234e-06,
-      "loss": 1.7621,
       "step": 23000
     },
     {
-      "epoch": 2.93,
-      "learning_rate": 8.532534032721369e-06,
-      "loss": 1.7578,
       "step": 23500
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 8.501311352566505e-06,
-      "loss": 1.7502,
       "step": 24000
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 1.7523757219314575,
-      "eval_runtime": 33.535,
-      "eval_samples_per_second": 42.374,
-      "eval_steps_per_second": 5.308,
-      "step": 24021
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 8.470088672411641e-06,
-      "loss": 1.7503,
       "step": 24500
     },
     {
-      "epoch": 3.12,
-      "learning_rate": 8.438865992256776e-06,
-      "loss": 1.7381,
       "step": 25000
     },
     {
-      "epoch": 3.18,
-      "learning_rate": 8.407643312101912e-06,
-      "loss": 1.7336,
       "step": 25500
     },
     {
-      "epoch": 3.25,
-      "learning_rate": 8.376420631947046e-06,
-      "loss": 1.7252,
       "step": 26000
     },
     {
-      "epoch": 3.31,
-      "learning_rate": 8.345197951792183e-06,
-      "loss": 1.7312,
       "step": 26500
     },
     {
-      "epoch": 3.37,
-      "learning_rate": 8.313975271637319e-06,
-      "loss": 1.7271,
       "step": 27000
     },
     {
-      "epoch": 3.43,
-      "learning_rate": 8.282752591482453e-06,
-      "loss": 1.7336,
       "step": 27500
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 8.25152991132759e-06,
-      "loss": 1.7251,
       "step": 28000
     },
     {
-      "epoch": 3.56,
-      "learning_rate": 8.220307231172726e-06,
-      "loss": 1.7162,
       "step": 28500
     },
     {
-      "epoch": 3.62,
-      "learning_rate": 8.18908455101786e-06,
-      "loss": 1.7067,
       "step": 29000
     },
     {
-      "epoch": 3.68,
-      "learning_rate": 8.157861870862995e-06,
-      "loss": 1.7104,
       "step": 29500
     },
     {
-      "epoch": 3.75,
-      "learning_rate": 8.126639190708131e-06,
-      "loss": 1.7089,
       "step": 30000
     },
     {
-      "epoch": 3.81,
-      "learning_rate": 8.095416510553267e-06,
-      "loss": 1.7087,
       "step": 30500
     },
     {
-      "epoch": 3.87,
-      "learning_rate": 8.064193830398402e-06,
-      "loss": 1.6976,
       "step": 31000
     },
     {
-      "epoch": 3.93,
-      "learning_rate": 8.032971150243538e-06,
-      "loss": 1.6907,
       "step": 31500
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 8.001748470088672e-06,
-      "loss": 1.6994,
       "step": 32000
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 1.705617070198059,
-      "eval_runtime": 33.5302,
-      "eval_samples_per_second": 42.38,
-      "eval_steps_per_second": 5.309,
-      "step": 32028
-    },
-    {
-      "epoch": 4.06,
-      "learning_rate": 7.970525789933809e-06,
-      "loss": 1.6913,
       "step": 32500
     },
     {
-      "epoch": 4.12,
-      "learning_rate": 7.939303109778945e-06,
-      "loss": 1.6853,
       "step": 33000
     },
     {
-      "epoch": 4.18,
-      "learning_rate": 7.90808042962408e-06,
-      "loss": 1.6854,
       "step": 33500
     },
     {
-      "epoch": 4.25,
-      "learning_rate": 7.876857749469215e-06,
-      "loss": 1.6884,
       "step": 34000
     },
     {
-      "epoch": 4.31,
-      "learning_rate": 7.84563506931435e-06,
-      "loss": 1.6813,
-      "step": 34500
-    },
-    {
-      "epoch": 4.37,
-      "learning_rate": 7.814412389159486e-06,
-      "loss": 1.6834,
-      "step": 35000
-    },
-    {
-      "epoch": 4.43,
-      "learning_rate": 7.783189709004622e-06,
-      "loss": 1.6717,
-      "step": 35500
-    },
-    {
-      "epoch": 4.5,
-      "learning_rate": 7.751967028849757e-06,
-      "loss": 1.6712,
-      "step": 36000
-    },
-    {
-      "epoch": 4.56,
-      "learning_rate": 7.720744348694893e-06,
-      "loss": 1.6873,
-      "step": 36500
-    },
-    {
-      "epoch": 4.62,
-      "learning_rate": 7.689521668540028e-06,
-      "loss": 1.6688,
-      "step": 37000
-    },
-    {
-      "epoch": 4.68,
-      "learning_rate": 7.658298988385164e-06,
-      "loss": 1.6589,
-      "step": 37500
-    },
-    {
-      "epoch": 4.75,
-      "learning_rate": 7.627076308230299e-06,
-      "loss": 1.6668,
-      "step": 38000
-    },
-    {
-      "epoch": 4.81,
-      "learning_rate": 7.5958536280754345e-06,
-      "loss": 1.6665,
-      "step": 38500
-    },
-    {
-      "epoch": 4.87,
-      "learning_rate": 7.564630947920571e-06,
-      "loss": 1.6679,
-      "step": 39000
-    },
-    {
-      "epoch": 4.93,
-      "learning_rate": 7.533408267765706e-06,
-      "loss": 1.6624,
-      "step": 39500
-    },
-    {
-      "epoch": 5.0,
-      "learning_rate": 7.502185587610841e-06,
-      "loss": 1.6621,
-      "step": 40000
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 1.6710957288742065,
-      "eval_runtime": 33.5526,
-      "eval_samples_per_second": 42.351,
-      "eval_steps_per_second": 5.305,
-      "step": 40035
-    },
-    {
-      "epoch": 5.06,
-      "learning_rate": 7.470962907455977e-06,
-      "loss": 1.6497,
-      "step": 40500
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 7.439740227301112e-06,
-      "loss": 1.6487,
-      "step": 41000
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 7.4085175471462475e-06,
-      "loss": 1.6439,
-      "step": 41500
-    },
-    {
-      "epoch": 5.25,
-      "learning_rate": 7.377294866991384e-06,
-      "loss": 1.6552,
-      "step": 42000
-    },
-    {
-      "epoch": 5.31,
-      "learning_rate": 7.346072186836518e-06,
-      "loss": 1.6473,
-      "step": 42500
-    },
-    {
-      "epoch": 5.37,
-      "learning_rate": 7.314849506681654e-06,
-      "loss": 1.6447,
-      "step": 43000
-    },
-    {
-      "epoch": 5.43,
-      "learning_rate": 7.28362682652679e-06,
-      "loss": 1.6463,
-      "step": 43500
-    },
-    {
-      "epoch": 5.5,
-      "learning_rate": 7.252404146371925e-06,
-      "loss": 1.6493,
-      "step": 44000
-    },
-    {
-      "epoch": 5.56,
-      "learning_rate": 7.2211814662170606e-06,
-      "loss": 1.6433,
-      "step": 44500
-    },
-    {
-      "epoch": 5.62,
-      "learning_rate": 7.189958786062197e-06,
-      "loss": 1.6483,
-      "step": 45000
-    },
-    {
-      "epoch": 5.68,
-      "learning_rate": 7.158736105907331e-06,
-      "loss": 1.6347,
-      "step": 45500
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 7.127513425752467e-06,
-      "loss": 1.6363,
-      "step": 46000
-    },
-    {
-      "epoch": 5.81,
-      "learning_rate": 7.096290745597603e-06,
-      "loss": 1.6284,
-      "step": 46500
-    },
-    {
-      "epoch": 5.87,
-      "learning_rate": 7.065068065442738e-06,
-      "loss": 1.6268,
-      "step": 47000
-    },
-    {
-      "epoch": 5.93,
-      "learning_rate": 7.033845385287874e-06,
-      "loss": 1.633,
-      "step": 47500
-    },
-    {
-      "epoch": 5.99,
-      "learning_rate": 7.002622705133009e-06,
-      "loss": 1.6313,
-      "step": 48000
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 1.644548773765564,
-      "eval_runtime": 33.5436,
-      "eval_samples_per_second": 42.363,
-      "eval_steps_per_second": 5.307,
-      "step": 48042
-    },
-    {
-      "epoch": 6.06,
-      "learning_rate": 6.971400024978144e-06,
-      "loss": 1.628,
-      "step": 48500
-    },
-    {
-      "epoch": 6.12,
-      "learning_rate": 6.9401773448232805e-06,
-      "loss": 1.6263,
-      "step": 49000
-    },
-    {
-      "epoch": 6.18,
-      "learning_rate": 6.908954664668416e-06,
-      "loss": 1.6154,
-      "step": 49500
-    },
-    {
-      "epoch": 6.24,
-      "learning_rate": 6.877731984513551e-06,
-      "loss": 1.6141,
-      "step": 50000
-    },
-    {
-      "epoch": 6.31,
-      "learning_rate": 6.846509304358687e-06,
-      "loss": 1.6198,
-      "step": 50500
-    },
-    {
-      "epoch": 6.37,
-      "learning_rate": 6.815286624203822e-06,
-      "loss": 1.6131,
-      "step": 51000
-    },
-    {
-      "epoch": 6.43,
-      "learning_rate": 6.784063944048957e-06,
-      "loss": 1.6178,
-      "step": 51500
-    },
-    {
-      "epoch": 6.49,
-      "learning_rate": 6.7528412638940935e-06,
-      "loss": 1.6108,
-      "step": 52000
-    },
-    {
-      "epoch": 6.56,
-      "learning_rate": 6.721618583739229e-06,
-      "loss": 1.619,
-      "step": 52500
-    },
-    {
-      "epoch": 6.62,
-      "learning_rate": 6.690395903584364e-06,
-      "loss": 1.6167,
-      "step": 53000
-    },
-    {
-      "epoch": 6.68,
-      "learning_rate": 6.6591732234294996e-06,
-      "loss": 1.6051,
-      "step": 53500
-    },
-    {
-      "epoch": 6.74,
-      "learning_rate": 6.627950543274635e-06,
-      "loss": 1.6156,
-      "step": 54000
-    },
-    {
-      "epoch": 6.81,
-      "learning_rate": 6.59672786311977e-06,
-      "loss": 1.6155,
-      "step": 54500
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 6.5655051829649065e-06,
-      "loss": 1.6074,
-      "step": 55000
-    },
-    {
-      "epoch": 6.93,
-      "learning_rate": 6.534282502810042e-06,
-      "loss": 1.6082,
-      "step": 55500
-    },
-    {
-      "epoch": 6.99,
-      "learning_rate": 6.503059822655178e-06,
-      "loss": 1.6009,
-      "step": 56000
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 1.6238889694213867,
-      "eval_runtime": 33.6415,
-      "eval_samples_per_second": 42.24,
-      "eval_steps_per_second": 5.291,
-      "step": 56049
-    },
-    {
-      "epoch": 7.06,
-      "learning_rate": 6.471837142500313e-06,
-      "loss": 1.6086,
-      "step": 56500
-    },
-    {
-      "epoch": 7.12,
-      "learning_rate": 6.440614462345448e-06,
-      "loss": 1.597,
-      "step": 57000
-    },
-    {
-      "epoch": 7.18,
-      "learning_rate": 6.409391782190584e-06,
-      "loss": 1.5983,
-      "step": 57500
-    },
-    {
-      "epoch": 7.24,
-      "learning_rate": 6.3781691020357195e-06,
-      "loss": 1.6085,
-      "step": 58000
-    },
-    {
-      "epoch": 7.31,
-      "learning_rate": 6.346946421880855e-06,
-      "loss": 1.5866,
-      "step": 58500
-    },
-    {
-      "epoch": 7.37,
-      "learning_rate": 6.315723741725989e-06,
-      "loss": 1.5995,
-      "step": 59000
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 6.284501061571126e-06,
-      "loss": 1.5943,
-      "step": 59500
-    },
-    {
-      "epoch": 7.49,
-      "learning_rate": 6.253278381416261e-06,
-      "loss": 1.5994,
-      "step": 60000
-    },
-    {
-      "epoch": 7.56,
-      "learning_rate": 6.222055701261397e-06,
-      "loss": 1.5913,
-      "step": 60500
-    },
-    {
-      "epoch": 7.62,
-      "learning_rate": 6.1908330211065325e-06,
-      "loss": 1.6005,
-      "step": 61000
-    },
-    {
-      "epoch": 7.68,
-      "learning_rate": 6.159610340951669e-06,
-      "loss": 1.5857,
-      "step": 61500
-    },
-    {
-      "epoch": 7.74,
-      "learning_rate": 6.128387660796803e-06,
-      "loss": 1.5808,
-      "step": 62000
-    },
-    {
-      "epoch": 7.81,
-      "learning_rate": 6.097164980641939e-06,
-      "loss": 1.582,
-      "step": 62500
-    },
-    {
-      "epoch": 7.87,
-      "learning_rate": 6.065942300487074e-06,
-      "loss": 1.587,
-      "step": 63000
-    },
-    {
-      "epoch": 7.93,
-      "learning_rate": 6.03471962033221e-06,
-      "loss": 1.5858,
-      "step": 63500
-    },
-    {
-      "epoch": 7.99,
-      "learning_rate": 6.0034969401773455e-06,
-      "loss": 1.5835,
-      "step": 64000
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 1.6067923307418823,
-      "eval_runtime": 33.5833,
-      "eval_samples_per_second": 42.313,
-      "eval_steps_per_second": 5.3,
-      "step": 64056
     }
   ],
   "logging_steps": 500,
-  "max_steps": 160140,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 1.00412960145408e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 34431,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
+      "learning_rate": 9.945543260433913e-06,
+      "loss": 3.7697,
       "step": 500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.891086520867823e-06,
+      "loss": 2.9544,
       "step": 1000
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.836629781301735e-06,
+      "loss": 2.4309,
       "step": 1500
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.782173041735646e-06,
+      "loss": 2.1416,
       "step": 2000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.727716302169558e-06,
+      "loss": 2.0346,
       "step": 2500
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.673259562603468e-06,
+      "loss": 1.9859,
       "step": 3000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 9.61880282303738e-06,
+      "loss": 1.9512,
       "step": 3500
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 9.56434608347129e-06,
+      "loss": 1.9171,
       "step": 4000
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.509889343905202e-06,
+      "loss": 1.8989,
       "step": 4500
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 9.455432604339114e-06,
+      "loss": 1.868,
       "step": 5000
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.400975864773026e-06,
+      "loss": 1.8423,
       "step": 5500
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.346519125206936e-06,
+      "loss": 1.8311,
       "step": 6000
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.292062385640848e-06,
+      "loss": 1.8139,
       "step": 6500
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 9.237605646074758e-06,
+      "loss": 1.809,
       "step": 7000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 9.18314890650867e-06,
+      "loss": 1.7932,
       "step": 7500
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 9.128692166942582e-06,
+      "loss": 1.7807,
       "step": 8000
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 9.074235427376494e-06,
+      "loss": 1.7729,
       "step": 8500
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 9.019778687810404e-06,
+      "loss": 1.7695,
       "step": 9000
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 8.965321948244316e-06,
+      "loss": 1.7464,
       "step": 9500
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 8.910865208678226e-06,
+      "loss": 1.7436,
       "step": 10000
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 8.856408469112138e-06,
+      "loss": 1.736,
       "step": 10500
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 8.80195172954605e-06,
+      "loss": 1.729,
       "step": 11000
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.7001079320907593,
+      "eval_runtime": 3.4215,
+      "eval_samples_per_second": 39.748,
+      "eval_steps_per_second": 4.969,
+      "step": 11477
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.747494989979961e-06,
+      "loss": 1.7264,
       "step": 11500
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 8.693038250413871e-06,
+      "loss": 1.708,
       "step": 12000
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 8.638581510847783e-06,
+      "loss": 1.6948,
       "step": 12500
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 8.584124771281695e-06,
+      "loss": 1.698,
       "step": 13000
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 8.529668031715605e-06,
+      "loss": 1.692,
       "step": 13500
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 8.475211292149517e-06,
+      "loss": 1.684,
       "step": 14000
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 8.420754552583429e-06,
+      "loss": 1.6879,
       "step": 14500
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 8.36629781301734e-06,
+      "loss": 1.6804,
       "step": 15000
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 8.311841073451251e-06,
+      "loss": 1.6713,
       "step": 15500
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 8.257384333885163e-06,
+      "loss": 1.6703,
       "step": 16000
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 8.202927594319073e-06,
+      "loss": 1.6646,
       "step": 16500
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 8.148470854752985e-06,
+      "loss": 1.651,
       "step": 17000
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 8.094014115186897e-06,
+      "loss": 1.6488,
       "step": 17500
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 8.039557375620808e-06,
+      "loss": 1.6452,
       "step": 18000
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 7.985100636054719e-06,
+      "loss": 1.6386,
       "step": 18500
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 7.93064389648863e-06,
+      "loss": 1.6349,
       "step": 19000
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 7.87618715692254e-06,
+      "loss": 1.6345,
       "step": 19500
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 7.821730417356452e-06,
+      "loss": 1.6294,
       "step": 20000
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 7.767273677790364e-06,
+      "loss": 1.631,
       "step": 20500
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 7.712816938224276e-06,
+      "loss": 1.6261,
       "step": 21000
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 7.658360198658186e-06,
+      "loss": 1.6281,
       "step": 21500
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 7.603903459092098e-06,
+      "loss": 1.611,
       "step": 22000
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 7.549446719526009e-06,
+      "loss": 1.6155,
       "step": 22500
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 1.596663475036621,
+      "eval_runtime": 3.4296,
+      "eval_samples_per_second": 39.655,
+      "eval_steps_per_second": 4.957,
+      "step": 22954
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.49498997995992e-06,
+      "loss": 1.6029,
       "step": 23000
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 7.440533240393831e-06,
+      "loss": 1.607,
       "step": 23500
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 7.386076500827744e-06,
+      "loss": 1.5977,
       "step": 24000
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 7.331619761261655e-06,
+      "loss": 1.5922,
       "step": 24500
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 7.277163021695566e-06,
+      "loss": 1.5956,
       "step": 25000
     },
     {
+      "epoch": 2.22,
+      "learning_rate": 7.222706282129477e-06,
+      "loss": 1.5855,
       "step": 25500
     },
     {
+      "epoch": 2.27,
+      "learning_rate": 7.168249542563388e-06,
+      "loss": 1.5826,
       "step": 26000
     },
     {
+      "epoch": 2.31,
+      "learning_rate": 7.1137928029972995e-06,
+      "loss": 1.5846,
       "step": 26500
     },
     {
+      "epoch": 2.35,
+      "learning_rate": 7.059336063431211e-06,
+      "loss": 1.5899,
       "step": 27000
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 7.004879323865122e-06,
+      "loss": 1.5828,
       "step": 27500
     },
     {
+      "epoch": 2.44,
+      "learning_rate": 6.950422584299033e-06,
+      "loss": 1.5762,
       "step": 28000
     },
     {
+      "epoch": 2.48,
+      "learning_rate": 6.895965844732945e-06,
+      "loss": 1.5739,
       "step": 28500
     },
     {
+      "epoch": 2.53,
+      "learning_rate": 6.841509105166856e-06,
+      "loss": 1.574,
       "step": 29000
     },
     {
+      "epoch": 2.57,
+      "learning_rate": 6.787052365600767e-06,
+      "loss": 1.5759,
       "step": 29500
     },
     {
+      "epoch": 2.61,
+      "learning_rate": 6.732595626034678e-06,
+      "loss": 1.5737,
       "step": 30000
     },
     {
+      "epoch": 2.66,
+      "learning_rate": 6.67813888646859e-06,
+      "loss": 1.5637,
       "step": 30500
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 6.623682146902502e-06,
+      "loss": 1.5635,
       "step": 31000
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 6.569225407336413e-06,
+      "loss": 1.5641,
       "step": 31500
     },
     {
+      "epoch": 2.79,
+      "learning_rate": 6.514768667770324e-06,
+      "loss": 1.553,
       "step": 32000
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 6.460311928204235e-06,
+      "loss": 1.5699,
       "step": 32500
     },
     {
+      "epoch": 2.88,
+      "learning_rate": 6.405855188638146e-06,
+      "loss": 1.5695,
       "step": 33000
     },
     {
+      "epoch": 2.92,
+      "learning_rate": 6.3513984490720584e-06,
+      "loss": 1.5665,
       "step": 33500
     },
     {
+      "epoch": 2.96,
+      "learning_rate": 6.296941709505969e-06,
+      "loss": 1.5527,
       "step": 34000
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 1.5436657667160034,
+      "eval_runtime": 3.2624,
+      "eval_samples_per_second": 41.687,
+      "eval_steps_per_second": 5.211,
+      "step": 34431
     }
   ],
   "logging_steps": 500,
+  "max_steps": 91816,
+  "num_train_epochs": 8,
   "save_steps": 500,
+  "total_flos": 5.397574828032e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:571766107e6fb04c3fc5b250f343c7485c50c5a9f3e7aaf19f68a994ad56346d
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed2cc3807546f2cb55ecbce521c3690c744d9469e27b3404476816476ca082c6
 size 4027