Training in progress, step 396, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7765a191cebb35fd72f70a2a0196505273d2e6e498b1d7786301655c471ca6a0
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:c62117bd0256894b3042a11cfda644c219e5759cc70ab280da51e51f572c6b73
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b9367ea9d35c74fdcbdc3cf63d1f05b6d62e63d248adefa508a15fab72532a4
 size 128585300

 version https://git-lfs.github.com/spec/v1
+oid sha256:23f4c0deac9aef2fa8dd843486a943db0e1f1d76c494a3ef7b8fdf72cf1f88ae
 size 128585300

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a607d3966f4e9b2eb446795209b0fa90a8b23911c1801843216cc122be3ba84
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:940c32e385f23d49af3a4c46827c1518d27934b42fd2fe7cd075707a0ad18459
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08efc2f6cb6c0d4b11182b283e8aca4d4d30744220189f7acb1a0db30a120f3f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30280cabde0ed06f0e6140c1628262536698ba51c383111034150345e300b03c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.526315789473684,
   "eval_steps": 36,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -935,6 +935,98 @@
       "eval_samples_per_second": 5.029,
       "eval_steps_per_second": 0.629,
       "step": 360
     }
   ],
   "logging_steps": 3,
@@ -954,7 +1046,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4754141210201293e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7789473684210524,
   "eval_steps": 36,
+  "global_step": 396,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.029,
       "eval_steps_per_second": 0.629,
       "step": 360
+    },
+    {
+      "epoch": 2.5473684210526315,
+      "grad_norm": 5.408112049102783,
+      "learning_rate": 2.9243502413064368e-06,
+      "loss": 0.6439,
+      "step": 363
+    },
+    {
+      "epoch": 2.568421052631579,
+      "grad_norm": 3.7381534576416016,
+      "learning_rate": 2.6654338838876665e-06,
+      "loss": 0.9288,
+      "step": 366
+    },
+    {
+      "epoch": 2.5894736842105264,
+      "grad_norm": 4.740654468536377,
+      "learning_rate": 2.4178715244404794e-06,
+      "loss": 0.9505,
+      "step": 369
+    },
+    {
+      "epoch": 2.610526315789474,
+      "grad_norm": 4.9893364906311035,
+      "learning_rate": 2.1817890137430934e-06,
+      "loss": 1.046,
+      "step": 372
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 4.344699382781982,
+      "learning_rate": 1.9573063666788875e-06,
+      "loss": 0.8301,
+      "step": 375
+    },
+    {
+      "epoch": 2.6526315789473687,
+      "grad_norm": 2.871662139892578,
+      "learning_rate": 1.7445377012256126e-06,
+      "loss": 0.6642,
+      "step": 378
+    },
+    {
+      "epoch": 2.6736842105263157,
+      "grad_norm": 3.569286346435547,
+      "learning_rate": 1.5435911804424357e-06,
+      "loss": 0.8558,
+      "step": 381
+    },
+    {
+      "epoch": 2.694736842105263,
+      "grad_norm": 4.009424209594727,
+      "learning_rate": 1.3545689574841342e-06,
+      "loss": 0.8686,
+      "step": 384
+    },
+    {
+      "epoch": 2.7157894736842105,
+      "grad_norm": 3.5932652950286865,
+      "learning_rate": 1.1775671236705365e-06,
+      "loss": 1.0848,
+      "step": 387
+    },
+    {
+      "epoch": 2.736842105263158,
+      "grad_norm": 4.354364395141602,
+      "learning_rate": 1.0126756596375686e-06,
+      "loss": 1.1122,
+      "step": 390
+    },
+    {
+      "epoch": 2.7578947368421054,
+      "grad_norm": 3.184096336364746,
+      "learning_rate": 8.599783895946761e-07,
+      "loss": 0.8129,
+      "step": 393
+    },
+    {
+      "epoch": 2.7789473684210524,
+      "grad_norm": 4.265777587890625,
+      "learning_rate": 7.195529387119815e-07,
+      "loss": 0.7224,
+      "step": 396
+    },
+    {
+      "epoch": 2.7789473684210524,
+      "eval_loss": 0.3112446963787079,
+      "eval_runtime": 47.7893,
+      "eval_samples_per_second": 5.022,
+      "eval_steps_per_second": 0.628,
+      "step": 396
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.6247899734147072e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null