Upload 8 files

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +295 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff010bc66fd61f1d34710e22fc453cbd4986ef52cbca0f808e71d2287359c01a
 size 995641861

 version https://git-lfs.github.com/spec/v1
+oid sha256:0665fe7d442f8bbba1ae059bff6270660242a07678e0703e7514cb19706073e0
 size 995641861

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86bf6ab09b64321efc94f3bc379e531d0a1338c8c5fa3b38c7c52464847c79d8
 size 497807197

 version https://git-lfs.github.com/spec/v1
+oid sha256:b013aed3f4a82aeebcba3e970e376727406e6a2ed7078b6b88a510efdcc8f6e2
 size 497807197

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dd3a816ab8628e6038ecf426e93a907752049203fbc39b63fcde557182a866f
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f6cf74835c1af9f9e3dc4bcfbc0eae1e84048401ffb87d26ff318411e17c02d
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41b18054e524341e87a895cc798ffc44bc6c3d095dc41640d72b87475609e792
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:381b4f1af09e750b9ce29da1e140136f186310be59fcc0dc325e00c9f5f3a3d0
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 34431,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -439,13 +439,305 @@
       "eval_samples_per_second": 41.687,
       "eval_steps_per_second": 5.211,
       "step": 34431
     }
   ],
   "logging_steps": 500,
   "max_steps": 91816,
   "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 5.397574828032e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 57385,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.687,
       "eval_steps_per_second": 5.211,
       "step": 34431
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 6.24248496993988e-06,
+      "loss": 1.5506,
+      "step": 34500
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 6.188028230373791e-06,
+      "loss": 1.559,
+      "step": 35000
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 6.133571490807702e-06,
+      "loss": 1.5388,
+      "step": 35500
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 6.079114751241613e-06,
+      "loss": 1.5467,
+      "step": 36000
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 6.024658011675526e-06,
+      "loss": 1.5391,
+      "step": 36500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 5.970201272109437e-06,
+      "loss": 1.5364,
+      "step": 37000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 5.915744532543348e-06,
+      "loss": 1.5376,
+      "step": 37500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 5.861287792977259e-06,
+      "loss": 1.5397,
+      "step": 38000
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 5.806831053411171e-06,
+      "loss": 1.5336,
+      "step": 38500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 5.752374313845082e-06,
+      "loss": 1.5378,
+      "step": 39000
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 5.697917574278993e-06,
+      "loss": 1.5318,
+      "step": 39500
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 5.643460834712905e-06,
+      "loss": 1.5252,
+      "step": 40000
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 5.589004095146816e-06,
+      "loss": 1.5333,
+      "step": 40500
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 5.5345473555807275e-06,
+      "loss": 1.5299,
+      "step": 41000
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 5.4800906160146385e-06,
+      "loss": 1.5215,
+      "step": 41500
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 5.4256338764485495e-06,
+      "loss": 1.52,
+      "step": 42000
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 5.3711771368824605e-06,
+      "loss": 1.5258,
+      "step": 42500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5.316720397316373e-06,
+      "loss": 1.5256,
+      "step": 43000
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 5.262263657750284e-06,
+      "loss": 1.5205,
+      "step": 43500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 5.207806918184195e-06,
+      "loss": 1.5236,
+      "step": 44000
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.153350178618106e-06,
+      "loss": 1.5281,
+      "step": 44500
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 5.098893439052017e-06,
+      "loss": 1.5175,
+      "step": 45000
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 5.044436699485928e-06,
+      "loss": 1.5215,
+      "step": 45500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.5107132196426392,
+      "eval_runtime": 3.2672,
+      "eval_samples_per_second": 41.625,
+      "eval_steps_per_second": 5.203,
+      "step": 45908
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.98997995991984e-06,
+      "loss": 1.5202,
+      "step": 46000
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 4.935523220353751e-06,
+      "loss": 1.5136,
+      "step": 46500
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 4.881066480787663e-06,
+      "loss": 1.5119,
+      "step": 47000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 4.826609741221574e-06,
+      "loss": 1.5052,
+      "step": 47500
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 4.772153001655485e-06,
+      "loss": 1.5088,
+      "step": 48000
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 4.717696262089397e-06,
+      "loss": 1.5078,
+      "step": 48500
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 4.663239522523308e-06,
+      "loss": 1.5099,
+      "step": 49000
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 4.608782782957219e-06,
+      "loss": 1.5098,
+      "step": 49500
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 4.5543260433911305e-06,
+      "loss": 1.5044,
+      "step": 50000
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 4.4998693038250415e-06,
+      "loss": 1.5049,
+      "step": 50500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 4.445412564258953e-06,
+      "loss": 1.4958,
+      "step": 51000
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 4.390955824692864e-06,
+      "loss": 1.5073,
+      "step": 51500
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 4.336499085126776e-06,
+      "loss": 1.5015,
+      "step": 52000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 4.282042345560687e-06,
+      "loss": 1.5022,
+      "step": 52500
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 4.227585605994598e-06,
+      "loss": 1.4973,
+      "step": 53000
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 4.17312886642851e-06,
+      "loss": 1.4944,
+      "step": 53500
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 4.118672126862421e-06,
+      "loss": 1.5024,
+      "step": 54000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 4.064215387296332e-06,
+      "loss": 1.4981,
+      "step": 54500
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 4.009758647730244e-06,
+      "loss": 1.4942,
+      "step": 55000
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 3.955301908164155e-06,
+      "loss": 1.4964,
+      "step": 55500
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 3.900845168598066e-06,
+      "loss": 1.4995,
+      "step": 56000
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 3.846388429031978e-06,
+      "loss": 1.4959,
+      "step": 56500
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 3.7919316894658886e-06,
+      "loss": 1.4922,
+      "step": 57000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.4904537200927734,
+      "eval_runtime": 3.2628,
+      "eval_samples_per_second": 41.682,
+      "eval_steps_per_second": 5.21,
+      "step": 57385
     }
   ],
   "logging_steps": 500,
   "max_steps": 91816,
   "num_train_epochs": 8,
   "save_steps": 500,
+  "total_flos": 8.99595804672e+16,
   "trial_name": null,
   "trial_params": null
 }