Training in progress, step 68, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faf6a0c9f287d54ffdc5b5fd47ee47acb3962a794039f6c50471332b1bd0597a
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:35b03ad288e9be268229d4c9b8350b53a0832256682c787acaf0d0153bef542a
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94232827281bc34d3d9aa3486a9436a9999c28af4953f5c8f57971a4e34dfd09
 size 37134420

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b33cb1418e7c3b78e10095e9e9845586d0cec7958bc2a6c4d162562a3e217d0
 size 37134420

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:161ccaa5741f73c3c75a0291963368f5281659d8a1026a6fd4b0de6bf799153e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f03bc1423c34b94dc31b9df725b107e8c7094161c242c029296a4dd797e9612
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97178a71d5acd54714c38f03fc162b58c9ab83f0e2b9f2d42288a4a7b505c2c6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:57465ffa9dc280f2ea6034fe61064b0208bf36c7b5f569218c0e1296778ee099
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.009667330110889964,
   "eval_steps": 34,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -100,6 +100,91 @@
       "eval_samples_per_second": 35.316,
       "eval_steps_per_second": 4.417,
       "step": 34
     }
   ],
   "logging_steps": 3,
@@ -119,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0888000598704128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.019334660221779928,
   "eval_steps": 34,
+  "global_step": 68,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.316,
       "eval_steps_per_second": 4.417,
       "step": 34
+    },
+    {
+      "epoch": 0.010235996588001138,
+      "grad_norm": 0.16702412068843842,
+      "learning_rate": 4.9453690018345144e-05,
+      "loss": 1.1981,
+      "step": 36
+    },
+    {
+      "epoch": 0.011088996303667898,
+      "grad_norm": 0.1968175172805786,
+      "learning_rate": 4.932095175695911e-05,
+      "loss": 1.1675,
+      "step": 39
+    },
+    {
+      "epoch": 0.01194199601933466,
+      "grad_norm": 0.18244469165802002,
+      "learning_rate": 4.917401074463441e-05,
+      "loss": 1.1584,
+      "step": 42
+    },
+    {
+      "epoch": 0.01279499573500142,
+      "grad_norm": 0.16749081015586853,
+      "learning_rate": 4.901295279078431e-05,
+      "loss": 1.1134,
+      "step": 45
+    },
+    {
+      "epoch": 0.013647995450668183,
+      "grad_norm": 0.17398597300052643,
+      "learning_rate": 4.883787194871841e-05,
+      "loss": 1.1139,
+      "step": 48
+    },
+    {
+      "epoch": 0.014500995166334945,
+      "grad_norm": 0.17164087295532227,
+      "learning_rate": 4.864887046071813e-05,
+      "loss": 1.079,
+      "step": 51
+    },
+    {
+      "epoch": 0.015353994882001705,
+      "grad_norm": 0.1644001007080078,
+      "learning_rate": 4.8446058698330115e-05,
+      "loss": 1.0646,
+      "step": 54
+    },
+    {
+      "epoch": 0.01620699459766847,
+      "grad_norm": 0.16490623354911804,
+      "learning_rate": 4.822955509791233e-05,
+      "loss": 1.0739,
+      "step": 57
+    },
+    {
+      "epoch": 0.017059994313335228,
+      "grad_norm": 0.17708458006381989,
+      "learning_rate": 4.799948609147061e-05,
+      "loss": 1.0897,
+      "step": 60
+    },
+    {
+      "epoch": 0.01791299402900199,
+      "grad_norm": 0.15597032010555267,
+      "learning_rate": 4.7755986032825864e-05,
+      "loss": 1.0566,
+      "step": 63
+    },
+    {
+      "epoch": 0.018765993744668752,
+      "grad_norm": 0.17728550732135773,
+      "learning_rate": 4.74991971191553e-05,
+      "loss": 1.0275,
+      "step": 66
+    },
+    {
+      "epoch": 0.019334660221779928,
+      "eval_loss": 1.0011852979660034,
+      "eval_runtime": 168.1174,
+      "eval_samples_per_second": 35.237,
+      "eval_steps_per_second": 4.408,
+      "step": 68
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.1776001197408256e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null