Training in progress, step 204, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c925b87b8d7870ce14fd59fe02160bc0a9b8db123ed15f75cea43d25afd664bb
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b11ec8052c5552f688ed9d416868cd53ddb56b5d87ead5a1ac28143162119f3
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50f8022e28ae5b2ba03c1fd7bc121b9ea02cb3e858280eee3e2ab2462cc80c3d
 size 37134420

 version https://git-lfs.github.com/spec/v1
+oid sha256:c07cb456027b1e8133d5349eb14073d4e3f3071ed39e24a44c43b361c9a7e331
 size 37134420

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8cfbc8e54b819f718872be40a285c49725dec3a1d4f07ec32ca0a5444a91520
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8513bc15602cc9778e1a951f5ade81824ac1d664cd10d25d7f7f817465e8501d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f21ce5519aba36efeb75a8dad39ab6bd85bd42d0ae24cbc1f5cfa5d96741b8bc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f9839d107756d9c8815de9164f2ebf92c05b3536704a349ca5892084df7663e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.048336650554449814,
   "eval_steps": 34,
-  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -447,6 +447,98 @@
       "eval_samples_per_second": 35.251,
       "eval_steps_per_second": 4.409,
       "step": 170
     }
   ],
   "logging_steps": 3,
@@ -466,7 +558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.444000299352064e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05800398066533978,
   "eval_steps": 34,
+  "global_step": 204,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.251,
       "eval_steps_per_second": 4.409,
       "step": 170
+    },
+    {
+      "epoch": 0.048620983793005404,
+      "grad_norm": 0.4114479720592499,
+      "learning_rate": 3.17617799075421e-05,
+      "loss": 0.6287,
+      "step": 171
+    },
+    {
+      "epoch": 0.049473983508672166,
+      "grad_norm": 0.36733385920524597,
+      "learning_rate": 3.1178227669141744e-05,
+      "loss": 0.621,
+      "step": 174
+    },
+    {
+      "epoch": 0.05032698322433893,
+      "grad_norm": 0.3716995418071747,
+      "learning_rate": 3.0591067519763895e-05,
+      "loss": 0.5532,
+      "step": 177
+    },
+    {
+      "epoch": 0.05117998294000568,
+      "grad_norm": 0.4997945725917816,
+      "learning_rate": 3.0000642344401113e-05,
+      "loss": 0.6024,
+      "step": 180
+    },
+    {
+      "epoch": 0.052032982655672445,
+      "grad_norm": 0.43555817008018494,
+      "learning_rate": 2.9407296934729227e-05,
+      "loss": 0.5092,
+      "step": 183
+    },
+    {
+      "epoch": 0.05288598237133921,
+      "grad_norm": 0.49766504764556885,
+      "learning_rate": 2.8811377787758636e-05,
+      "loss": 0.6556,
+      "step": 186
+    },
+    {
+      "epoch": 0.05373898208700597,
+      "grad_norm": 0.6171467304229736,
+      "learning_rate": 2.8213232903489865e-05,
+      "loss": 0.5736,
+      "step": 189
+    },
+    {
+      "epoch": 0.05459198180267273,
+      "grad_norm": 0.8651450276374817,
+      "learning_rate": 2.761321158169134e-05,
+      "loss": 0.5568,
+      "step": 192
+    },
+    {
+      "epoch": 0.055444981518339494,
+      "grad_norm": 0.4486936926841736,
+      "learning_rate": 2.7011664217918154e-05,
+      "loss": 0.6145,
+      "step": 195
+    },
+    {
+      "epoch": 0.056297981234006256,
+      "grad_norm": 0.5348999500274658,
+      "learning_rate": 2.6408942098890936e-05,
+      "loss": 0.591,
+      "step": 198
+    },
+    {
+      "epoch": 0.05715098094967302,
+      "grad_norm": 0.4498997628688812,
+      "learning_rate": 2.580539719735433e-05,
+      "loss": 0.5572,
+      "step": 201
+    },
+    {
+      "epoch": 0.05800398066533978,
+      "grad_norm": 0.5493082404136658,
+      "learning_rate": 2.5201381966534748e-05,
+      "loss": 0.5316,
+      "step": 204
+    },
+    {
+      "epoch": 0.05800398066533978,
+      "eval_loss": 0.5341343879699707,
+      "eval_runtime": 167.9533,
+      "eval_samples_per_second": 35.272,
+      "eval_steps_per_second": 4.412,
+      "step": 204
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 6.532800359222477e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null