Training in progress, step 374, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b35927f06b80d26e3132911d1799d75251e7e6f71fcf0af72ef64fef8170870a
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:81a3eea9d1fa6290220cf46b07fb62985e27093d257e77a48314f73c0764625f
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc56f5223c6ddbd7f71b1177c33bd87cfc42ca847c24b1ed458640671a0fbb09
 size 37134740

 version https://git-lfs.github.com/spec/v1
+oid sha256:153e2d49ba9ba2ccfbf3bfae08347b3f0f38d757bcccfe7fa79912f2e02a5be4
 size 37134740

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e070c1a19e2f7fe8d8783d14cf6c4980c084d0861be459da7f60717ee83ba20f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d92ff51f2aa2d47f51b12f0f0bb45e8de9788980d700a69cb0111b82a788b793
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6999f9aad8d44fbf7db1d80d56ad86630abb8e28a7187e80ed24f8546462146
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:51094b5d327949483be134a2a7ce82f120d34a302bf097e81122d94eff7cf8c6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09667330110889963,
   "eval_steps": 34,
-  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -886,6 +886,91 @@
       "eval_samples_per_second": 35.267,
       "eval_steps_per_second": 4.411,
       "step": 340
     }
   ],
   "logging_steps": 3,
@@ -905,7 +990,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0888000598704128e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1063406312197896,
   "eval_steps": 34,
+  "global_step": 374,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.267,
       "eval_steps_per_second": 4.411,
       "step": 340
+    },
+    {
+      "epoch": 0.09724196758601081,
+      "grad_norm": 0.5438792705535889,
+      "learning_rate": 2.679304450853401e-06,
+      "loss": 0.4406,
+      "step": 342
+    },
+    {
+      "epoch": 0.09809496730167756,
+      "grad_norm": 0.6174736022949219,
+      "learning_rate": 2.4137391347404476e-06,
+      "loss": 0.4503,
+      "step": 345
+    },
+    {
+      "epoch": 0.09894796701734433,
+      "grad_norm": 0.5348644256591797,
+      "learning_rate": 2.1613635589349756e-06,
+      "loss": 0.5056,
+      "step": 348
+    },
+    {
+      "epoch": 0.09980096673301109,
+      "grad_norm": 0.44019100069999695,
+      "learning_rate": 1.922325103666281e-06,
+      "loss": 0.3926,
+      "step": 351
+    },
+    {
+      "epoch": 0.10065396644867786,
+      "grad_norm": 0.5055895447731018,
+      "learning_rate": 1.696763360660808e-06,
+      "loss": 0.5037,
+      "step": 354
+    },
+    {
+      "epoch": 0.10150696616434461,
+      "grad_norm": 0.5478758215904236,
+      "learning_rate": 1.4848100516245717e-06,
+      "loss": 0.3948,
+      "step": 357
+    },
+    {
+      "epoch": 0.10235996588001137,
+      "grad_norm": 0.5242781639099121,
+      "learning_rate": 1.286588951321363e-06,
+      "loss": 0.4522,
+      "step": 360
+    },
+    {
+      "epoch": 0.10321296559567814,
+      "grad_norm": 0.5367030501365662,
+      "learning_rate": 1.102215815291774e-06,
+      "loss": 0.4246,
+      "step": 363
+    },
+    {
+      "epoch": 0.10406596531134489,
+      "grad_norm": 0.5049583315849304,
+      "learning_rate": 9.317983122552332e-07,
+      "loss": 0.3515,
+      "step": 366
+    },
+    {
+      "epoch": 0.10491896502701166,
+      "grad_norm": 0.47986966371536255,
+      "learning_rate": 7.754359612344859e-07,
+      "loss": 0.3667,
+      "step": 369
+    },
+    {
+      "epoch": 0.10577196474267841,
+      "grad_norm": 0.5948217511177063,
+      "learning_rate": 6.332200734393057e-07,
+      "loss": 0.4115,
+      "step": 372
+    },
+    {
+      "epoch": 0.1063406312197896,
+      "eval_loss": 0.41257256269454956,
+      "eval_runtime": 168.1203,
+      "eval_samples_per_second": 35.237,
+      "eval_steps_per_second": 4.408,
+      "step": 374
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.197680065857454e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null