Training in progress, step 210, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac95b09d8525db8031f8dbc1d8e3ed07d7e85a7df4228ef043cdaf3ee203236
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd409d2cda44386875e2237cbc14387320bb7b2b55cde3c8ddd45a9c2bb03e9a
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa4029985d53a5443c979e69946d3dbe088ec242f46eb7a6202b94cf53f44199
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c8061481dc5236ca996649ca5cc63afee81ef7df75bdd47d238714a9ba6b4f2
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb35f7933787785ef92acdac24ff917ef72043d42461a8f1e3ee05f375cdf20a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:46bf71438827f27fea3a358fd83e1761732ffba0ae573ca96fc80e490196bc32
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f516a6e4e8a8eba956b80cb2ea416b9fd98f0dec12d7d9d9a36274d0eef4a63
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bd95a1db0e917ddf11b12a343f06e907fcec4b81104002e2471b4778587b465
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5472312703583062,
   "eval_steps": 42,
-  "global_step": 168,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -439,6 +439,112 @@
       "eval_samples_per_second": 23.33,
       "eval_steps_per_second": 5.866,
       "step": 168
     }
   ],
   "logging_steps": 3,
@@ -458,7 +564,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.267151406146519e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6840390879478827,
   "eval_steps": 42,
+  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.33,
       "eval_steps_per_second": 5.866,
       "step": 168
+    },
+    {
+      "epoch": 0.5570032573289903,
+      "grad_norm": 2.361525297164917,
+      "learning_rate": 7.564496387029532e-05,
+      "loss": 1.3612,
+      "step": 171
+    },
+    {
+      "epoch": 0.5667752442996743,
+      "grad_norm": 2.969438076019287,
+      "learning_rate": 7.481469062821252e-05,
+      "loss": 1.3524,
+      "step": 174
+    },
+    {
+      "epoch": 0.5765472312703583,
+      "grad_norm": 2.654615879058838,
+      "learning_rate": 7.39752373250527e-05,
+      "loss": 1.3684,
+      "step": 177
+    },
+    {
+      "epoch": 0.5863192182410424,
+      "grad_norm": 2.500892162322998,
+      "learning_rate": 7.312691451204178e-05,
+      "loss": 1.2688,
+      "step": 180
+    },
+    {
+      "epoch": 0.5960912052117264,
+      "grad_norm": 2.7902750968933105,
+      "learning_rate": 7.227003602163295e-05,
+      "loss": 1.213,
+      "step": 183
+    },
+    {
+      "epoch": 0.6058631921824105,
+      "grad_norm": 2.477710008621216,
+      "learning_rate": 7.14049188514063e-05,
+      "loss": 1.4632,
+      "step": 186
+    },
+    {
+      "epoch": 0.6156351791530945,
+      "grad_norm": 2.8017044067382812,
+      "learning_rate": 7.05318830467969e-05,
+      "loss": 1.4655,
+      "step": 189
+    },
+    {
+      "epoch": 0.6254071661237784,
+      "grad_norm": 2.2910585403442383,
+      "learning_rate": 6.965125158269619e-05,
+      "loss": 1.3622,
+      "step": 192
+    },
+    {
+      "epoch": 0.6351791530944625,
+      "grad_norm": 2.3485262393951416,
+      "learning_rate": 6.876335024396872e-05,
+      "loss": 1.3191,
+      "step": 195
+    },
+    {
+      "epoch": 0.6449511400651465,
+      "grad_norm": 2.221445083618164,
+      "learning_rate": 6.786850750493006e-05,
+      "loss": 1.2862,
+      "step": 198
+    },
+    {
+      "epoch": 0.6547231270358306,
+      "grad_norm": 2.2322473526000977,
+      "learning_rate": 6.696705440782938e-05,
+      "loss": 1.2873,
+      "step": 201
+    },
+    {
+      "epoch": 0.6644951140065146,
+      "grad_norm": 2.134915828704834,
+      "learning_rate": 6.605932444038229e-05,
+      "loss": 1.2457,
+      "step": 204
+    },
+    {
+      "epoch": 0.6742671009771987,
+      "grad_norm": 2.2600533962249756,
+      "learning_rate": 6.514565341239861e-05,
+      "loss": 1.3544,
+      "step": 207
+    },
+    {
+      "epoch": 0.6840390879478827,
+      "grad_norm": 2.104802370071411,
+      "learning_rate": 6.422637933155162e-05,
+      "loss": 1.2662,
+      "step": 210
+    },
+    {
+      "epoch": 0.6840390879478827,
+      "eval_loss": 1.3924102783203125,
+      "eval_runtime": 22.1429,
+      "eval_samples_per_second": 23.348,
+      "eval_steps_per_second": 5.871,
+      "step": 210
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.5839392576831488e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null