Training in progress, step 84, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +60 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:770140205d2dac43d3cffa97db7b856382360e2b5d689600fb6a190f3a214871
 size 191968

 version https://git-lfs.github.com/spec/v1
+oid sha256:31950ae9617f892cd1a2f1b3497a6c89d63f13022f3b417331eb374c2d0a0aa6
 size 191968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a359e38865ee20b10b8cc286fbdbd671be6b4685839e72323ccb7768a4790a4
 size 253144

 version https://git-lfs.github.com/spec/v1
+oid sha256:9882a0339d70f771ed47074c510984676dd1f90485341b9d71c79a6578d4a801
 size 253144

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff00fff9cbfcd118e54c77073688cb2b84440267aaa2d4e090ca843731701c95
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:611585759af06adf1fef356a0b29f640225adbdcc1a21f2c2557f30972d4755b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:731f9a38a306fb54b040f8655d8ca8de9e109511292676024e32dd381563f07a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c082198971fde7d345d487d7f9a561afc194de17619b9de850d57aaedab580c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7613293051359517,
   "eval_steps": 21,
-  "global_step": 63,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -186,6 +186,63 @@
       "eval_samples_per_second": 532.785,
       "eval_steps_per_second": 68.501,
       "step": 63
     }
   ],
   "logging_steps": 3,
@@ -205,7 +262,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7027691618304.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0181268882175227,
   "eval_steps": 21,
+  "global_step": 84,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 532.785,
       "eval_steps_per_second": 68.501,
       "step": 63
+    },
+    {
+      "epoch": 0.797583081570997,
+      "grad_norm": 0.2844769358634949,
+      "learning_rate": 8.705445194510868e-05,
+      "loss": 10.3075,
+      "step": 66
+    },
+    {
+      "epoch": 0.8338368580060423,
+      "grad_norm": 0.2514300048351288,
+      "learning_rate": 8.570216784695637e-05,
+      "loss": 10.3049,
+      "step": 69
+    },
+    {
+      "epoch": 0.8700906344410876,
+      "grad_norm": 0.24744316935539246,
+      "learning_rate": 8.429437201905254e-05,
+      "loss": 10.295,
+      "step": 72
+    },
+    {
+      "epoch": 0.9063444108761329,
+      "grad_norm": 0.21623125672340393,
+      "learning_rate": 8.283325338118153e-05,
+      "loss": 10.2903,
+      "step": 75
+    },
+    {
+      "epoch": 0.9425981873111783,
+      "grad_norm": 0.21527834236621857,
+      "learning_rate": 8.132108376241849e-05,
+      "loss": 10.2817,
+      "step": 78
+    },
+    {
+      "epoch": 0.9788519637462235,
+      "grad_norm": 0.2678958475589752,
+      "learning_rate": 7.97602143687623e-05,
+      "loss": 10.2804,
+      "step": 81
+    },
+    {
+      "epoch": 1.0181268882175227,
+      "grad_norm": 0.20537346601486206,
+      "learning_rate": 7.815307212734888e-05,
+      "loss": 11.7642,
+      "step": 84
+    },
+    {
+      "epoch": 1.0181268882175227,
+      "eval_loss": 10.264846801757812,
+      "eval_runtime": 0.2605,
+      "eval_samples_per_second": 537.448,
+      "eval_steps_per_second": 69.1,
+      "step": 84
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 9370255491072.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null