Training in progress, step 91, checkpoint

Files changed (4) hide show

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d34e1b1858956956b2a4bc7d70576542147952fd58b8e3f1c7df21e7eecd1f0
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:44d15178dc525038a36eb4a92b7d8c2a6a3c2b552226ee5731fa1276d38745b5
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ffb5552c62229403427efd349092fc35e09bedff55d8fb73712fa390452f3c7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:463bf918b7bb4af5381a848e6c4602a528bc66419efc3981d2a5a5ca6ffc4251
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4d6e5f76805b36e4d76ee2a3b48ba3bedb1c2bda79be4f5c70f809dd0d57438
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37872b45362e9c63412b1b167580155e0789faf44bbc81b017091d0c0912d87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7959183673469388,
   "eval_steps": 13,
-  "global_step": 78,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -245,6 +245,42 @@
       "eval_samples_per_second": 36.406,
       "eval_steps_per_second": 4.634,
       "step": 78
     }
   ],
   "logging_steps": 3,
@@ -264,7 +300,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.122728899346432e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9285714285714286,
   "eval_steps": 13,
+  "global_step": 91,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.406,
       "eval_steps_per_second": 4.634,
       "step": 78
+    },
+    {
+      "epoch": 0.826530612244898,
+      "grad_norm": NaN,
+      "learning_rate": 4.887809678520976e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": NaN,
+      "learning_rate": 4.551803455482833e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.8877551020408163,
+      "grad_norm": NaN,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "grad_norm": NaN,
+      "learning_rate": 3.887395330218429e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.9285714285714286,
+      "eval_loss": NaN,
+      "eval_runtime": 4.5272,
+      "eval_samples_per_second": 36.447,
+      "eval_steps_per_second": 4.639,
+      "step": 91
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.476517049237504e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null