Training in progress, step 52, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:955ee48fa44fbd547a69a17e32f27b4906e3dbf00d84babd8e3d9ea83598276a
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bfb19cdffd8f2a70518ab31199f4b1827a2fbc7e048b596427974934df16daa
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21c9361a80a2d599be762356ad296eb8f3d22e72b304e2c586b2e9f1a3633354
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:215dde8de4d4b55ff881d6061b02018ce74f36f87bf60b5e2a9be7f84ff0140d
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bd48ab963ce214f47ac10c51eb718536f51b1a5f4605ab693a533222db0cdb5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f2c3514f0eafec6c2b250a2a0a609ed59534ef31c7ba11da3fe225c079d1575
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b06606e40b3f01ec7202acbfd1d0145e551b0842ff237681a6bdde0b316ef9b5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:792ad29798cba378feffa861e2939c0c9205d97b89b46c0161cdef16a3d333a2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010800332317917475,
   "eval_steps": 13,
-  "global_step": 39,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -130,6 +130,42 @@
       "eval_samples_per_second": 13.195,
       "eval_steps_per_second": 1.651,
       "step": 39
     }
   ],
   "logging_steps": 3,
@@ -149,7 +185,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.220067744671334e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.014400443090556632,
   "eval_steps": 13,
+  "global_step": 52,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.195,
       "eval_steps_per_second": 1.651,
       "step": 39
+    },
+    {
+      "epoch": 0.011631127111603435,
+      "grad_norm": 2.9625065326690674,
+      "learning_rate": 8.765357330018056e-05,
+      "loss": 1.5417,
+      "step": 42
+    },
+    {
+      "epoch": 0.012461921905289393,
+      "grad_norm": 2.775251865386963,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 1.4174,
+      "step": 45
+    },
+    {
+      "epoch": 0.013292716698975353,
+      "grad_norm": 3.418978214263916,
+      "learning_rate": 8.289693629698564e-05,
+      "loss": 1.444,
+      "step": 48
+    },
+    {
+      "epoch": 0.014123511492661313,
+      "grad_norm": 2.627183437347412,
+      "learning_rate": 8.0289502192041e-05,
+      "loss": 1.3904,
+      "step": 51
+    },
+    {
+      "epoch": 0.014400443090556632,
+      "eval_loss": 0.3832974135875702,
+      "eval_runtime": 461.0753,
+      "eval_samples_per_second": 13.191,
+      "eval_steps_per_second": 1.65,
+      "step": 52
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 8.249073800419738e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null