Training in progress, step 170, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d49930c00528f90da24b6b608e7e80bf7ca0b3683118ac70ed158a02ed82355
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:c925b87b8d7870ce14fd59fe02160bc0a9b8db123ed15f75cea43d25afd664bb
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc94d5b33f89c7421164351f9effdc622887a5194f3ac924e62ab147d4f6ce73
 size 37134420

 version https://git-lfs.github.com/spec/v1
+oid sha256:50f8022e28ae5b2ba03c1fd7bc121b9ea02cb3e858280eee3e2ab2462cc80c3d
 size 37134420

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd821849c8a72b596e3334c93cfab0767818edfb3fd7124c4efcd8a0829df152
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8cfbc8e54b819f718872be40a285c49725dec3a1d4f07ec32ca0a5444a91520
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f676b917baa0a895f62d4ea12d985f19fe259f840a0ba6d41d00cece68314f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f21ce5519aba36efeb75a8dad39ab6bd85bd42d0ae24cbc1f5cfa5d96741b8bc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.038669320443559856,
   "eval_steps": 34,
-  "global_step": 136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -362,6 +362,91 @@
       "eval_samples_per_second": 35.248,
       "eval_steps_per_second": 4.409,
       "step": 136
     }
   ],
   "logging_steps": 3,
@@ -381,7 +466,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.355200239481651e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.048336650554449814,
   "eval_steps": 34,
+  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.248,
       "eval_steps_per_second": 4.409,
       "step": 136
+    },
+    {
+      "epoch": 0.03923798692067103,
+      "grad_norm": 0.4538515508174896,
+      "learning_rate": 3.784717029321922e-05,
+      "loss": 0.7585,
+      "step": 138
+    },
+    {
+      "epoch": 0.04009098663633779,
+      "grad_norm": 0.5923985838890076,
+      "learning_rate": 3.732519254757344e-05,
+      "loss": 0.7211,
+      "step": 141
+    },
+    {
+      "epoch": 0.04094398635200455,
+      "grad_norm": 0.36592337489128113,
+      "learning_rate": 3.679601723656205e-05,
+      "loss": 0.6604,
+      "step": 144
+    },
+    {
+      "epoch": 0.04179698606767131,
+      "grad_norm": 0.44677990674972534,
+      "learning_rate": 3.625995338366492e-05,
+      "loss": 0.7846,
+      "step": 147
+    },
+    {
+      "epoch": 0.04264998578333807,
+      "grad_norm": 0.4921860098838806,
+      "learning_rate": 3.5717314035076355e-05,
+      "loss": 0.6709,
+      "step": 150
+    },
+    {
+      "epoch": 0.04350298549900483,
+      "grad_norm": 0.5457685589790344,
+      "learning_rate": 3.516841607689501e-05,
+      "loss": 0.6974,
+      "step": 153
+    },
+    {
+      "epoch": 0.044355985214671594,
+      "grad_norm": 0.46299344301223755,
+      "learning_rate": 3.461358005007128e-05,
+      "loss": 0.6643,
+      "step": 156
+    },
+    {
+      "epoch": 0.045208984930338356,
+      "grad_norm": 0.44877251982688904,
+      "learning_rate": 3.405312996322042e-05,
+      "loss": 0.6035,
+      "step": 159
+    },
+    {
+      "epoch": 0.04606198464600512,
+      "grad_norm": 0.3635808527469635,
+      "learning_rate": 3.348739310341068e-05,
+      "loss": 0.6781,
+      "step": 162
+    },
+    {
+      "epoch": 0.04691498436167188,
+      "grad_norm": 0.4172018766403198,
+      "learning_rate": 3.2916699845036816e-05,
+      "loss": 0.6195,
+      "step": 165
+    },
+    {
+      "epoch": 0.04776798407733864,
+      "grad_norm": 0.36372795701026917,
+      "learning_rate": 3.234138345689077e-05,
+      "loss": 0.6599,
+      "step": 168
+    },
+    {
+      "epoch": 0.048336650554449814,
+      "eval_loss": 0.606797456741333,
+      "eval_runtime": 168.0542,
+      "eval_samples_per_second": 35.251,
+      "eval_steps_per_second": 4.409,
+      "step": 170
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 5.444000299352064e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null