Training in progress, step 428, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c62117bd0256894b3042a11cfda644c219e5759cc70ab280da51e51f572c6b73
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fadece87f7d0b5bf7ec45f9ace6d987bc11dc65facb1ca4869de2b1ee32d3b0
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23f4c0deac9aef2fa8dd843486a943db0e1f1d76c494a3ef7b8fdf72cf1f88ae
 size 128585300

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1603142e24f463a84d869b06e66215c2cc49f7dd7f149e46aabd1520bb6f37e
 size 128585300

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:940c32e385f23d49af3a4c46827c1518d27934b42fd2fe7cd075707a0ad18459
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eddf67924b73cf743cd854b86e19ef82315aea0a3cd5a35508eada9db1b616d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30280cabde0ed06f0e6140c1628262536698ba51c383111034150345e300b03c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:db80f425fe1be43ea09e81fd5c5aa29383b214af5093b2dc266b56c382e52827
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.7789473684210524,
   "eval_steps": 36,
-  "global_step": 396,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1027,6 +1027,76 @@
       "eval_samples_per_second": 5.022,
       "eval_steps_per_second": 0.628,
       "step": 396
     }
   ],
   "logging_steps": 3,
@@ -1041,12 +1111,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.6247899734147072e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0035087719298246,
   "eval_steps": 36,
+  "global_step": 428,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.022,
       "eval_steps_per_second": 0.628,
       "step": 396
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.4699087142944336,
+      "learning_rate": 5.914706936587494e-07,
+      "loss": 0.614,
+      "step": 399
+    },
+    {
+      "epoch": 2.8210526315789473,
+      "grad_norm": 2.6950035095214844,
+      "learning_rate": 4.75796766313269e-07,
+      "loss": 0.9641,
+      "step": 402
+    },
+    {
+      "epoch": 2.8421052631578947,
+      "grad_norm": 4.25594425201416,
+      "learning_rate": 3.7258996066258103e-07,
+      "loss": 0.736,
+      "step": 405
+    },
+    {
+      "epoch": 2.863157894736842,
+      "grad_norm": 3.8812239170074463,
+      "learning_rate": 2.819027429088822e-07,
+      "loss": 0.7287,
+      "step": 408
+    },
+    {
+      "epoch": 2.8842105263157896,
+      "grad_norm": 4.651484966278076,
+      "learning_rate": 2.0378121479783796e-07,
+      "loss": 0.8938,
+      "step": 411
+    },
+    {
+      "epoch": 2.905263157894737,
+      "grad_norm": 4.784148216247559,
+      "learning_rate": 1.3826509018227128e-07,
+      "loss": 0.9602,
+      "step": 414
+    },
+    {
+      "epoch": 2.9263157894736844,
+      "grad_norm": 4.499444007873535,
+      "learning_rate": 8.538767483325383e-08,
+      "loss": 0.985,
+      "step": 417
+    },
+    {
+      "epoch": 2.9473684210526314,
+      "grad_norm": 5.214015483856201,
+      "learning_rate": 4.517584950877452e-08,
+      "loss": 0.9054,
+      "step": 420
+    },
+    {
+      "epoch": 2.968421052631579,
+      "grad_norm": 3.8694188594818115,
+      "learning_rate": 1.7650056288651127e-08,
+      "loss": 0.651,
+      "step": 423
+    },
+    {
+      "epoch": 2.9894736842105263,
+      "grad_norm": 3.8104214668273926,
+      "learning_rate": 2.8242881825846223e-09,
+      "loss": 0.8252,
+      "step": 426
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.7558214228836352e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null