Training in progress, step 341, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80811b878fbdd5efdd4f08e7b0bd3a4c9633c207c497739ecac63cd5a9eca669
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:10462e7bb907e56f44911b66dc9d08e780a22980744541436cfa57fd33089b28
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e73ae7c4dc344be3442d36391cb4ba52cfd5d97e4bb25bc22948ccdfd1f87bdf
 size 325340244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1288067af2f92d91e698359b4e37f06863ae4944657fba1418f6b5221da7ac34
 size 325340244

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:876d99865a3847c750dc39ca4a3b8622be8f667a3f24db9221e48742faf0c0fe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fad81ea991ac687f6089a33e4df7b4989f6dc0a113bcc48d47ff9341825e8c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68293b71e7e6e68b301413d0698f3727535763528fb8f34f0fe9f273150e3e61
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a23e869a07ea343caba66ddef1ef2a01435b58bcc15218ec50d03fed44b9143
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.5152129817444218,
   "eval_steps": 31,
-  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -816,6 +816,84 @@
       "eval_samples_per_second": 15.481,
       "eval_steps_per_second": 1.935,
       "step": 310
     }
   ],
   "logging_steps": 3,
@@ -835,7 +913,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.118715981197476e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.766734279918864,
   "eval_steps": 31,
+  "global_step": 341,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.481,
       "eval_steps_per_second": 1.935,
       "step": 310
+    },
+    {
+      "epoch": 2.5314401622718052,
+      "grad_norm": 4.959964752197266,
+      "learning_rate": 6.269014643030213e-06,
+      "loss": 0.9463,
+      "step": 312
+    },
+    {
+      "epoch": 2.5557809330628802,
+      "grad_norm": 5.439755916595459,
+      "learning_rate": 5.649458341088915e-06,
+      "loss": 0.8273,
+      "step": 315
+    },
+    {
+      "epoch": 2.5801217038539552,
+      "grad_norm": 5.629069805145264,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.9228,
+      "step": 318
+    },
+    {
+      "epoch": 2.6044624746450307,
+      "grad_norm": 6.254184246063232,
+      "learning_rate": 4.501936456172845e-06,
+      "loss": 0.8723,
+      "step": 321
+    },
+    {
+      "epoch": 2.6288032454361057,
+      "grad_norm": 5.284829616546631,
+      "learning_rate": 3.974757327377981e-06,
+      "loss": 0.7642,
+      "step": 324
+    },
+    {
+      "epoch": 2.6531440162271807,
+      "grad_norm": 5.344634056091309,
+      "learning_rate": 3.479121600898777e-06,
+      "loss": 0.849,
+      "step": 327
+    },
+    {
+      "epoch": 2.6774847870182557,
+      "grad_norm": 5.416316509246826,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.9429,
+      "step": 330
+    },
+    {
+      "epoch": 2.7018255578093306,
+      "grad_norm": 6.064454555511475,
+      "learning_rate": 2.583817239690034e-06,
+      "loss": 0.8065,
+      "step": 333
+    },
+    {
+      "epoch": 2.7261663286004056,
+      "grad_norm": 4.958108425140381,
+      "learning_rate": 2.1847622018482283e-06,
+      "loss": 0.8804,
+      "step": 336
+    },
+    {
+      "epoch": 2.7505070993914806,
+      "grad_norm": 5.65994119644165,
+      "learning_rate": 1.8184773395688526e-06,
+      "loss": 0.9978,
+      "step": 339
+    },
+    {
+      "epoch": 2.766734279918864,
+      "eval_loss": 0.5425376296043396,
+      "eval_runtime": 13.4517,
+      "eval_samples_per_second": 15.463,
+      "eval_steps_per_second": 1.933,
+      "step": 341
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 4.531169671218463e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null