Training in progress, step 105, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +60 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31950ae9617f892cd1a2f1b3497a6c89d63f13022f3b417331eb374c2d0a0aa6
 size 191968

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff8ab265d07c6eecf718607b5120d82a9dd48aa873031f384d6025f0af085749
 size 191968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9882a0339d70f771ed47074c510984676dd1f90485341b9d71c79a6578d4a801
 size 253144

 version https://git-lfs.github.com/spec/v1
+oid sha256:6309403c2680202e09f8fd0c2a08f99dfe3acbfe19d3d0778c0665f7f005aed6
 size 253144

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:611585759af06adf1fef356a0b29f640225adbdcc1a21f2c2557f30972d4755b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5b1aae0830d1010a88ca597c0f1ed03901b00f32510cacc8649169e36f65fbe
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c082198971fde7d345d487d7f9a561afc194de17619b9de850d57aaedab580c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ecf5d3685ba2ba738f94f0ff54d87b59bd9a5e0c4c32dcfd75219f10311d69a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0181268882175227,
   "eval_steps": 21,
-  "global_step": 84,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -243,6 +243,63 @@
       "eval_samples_per_second": 537.448,
       "eval_steps_per_second": 69.1,
       "step": 84
     }
   ],
   "logging_steps": 3,
@@ -262,7 +319,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9370255491072.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2719033232628398,
   "eval_steps": 21,
+  "global_step": 105,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 537.448,
       "eval_steps_per_second": 69.1,
       "step": 84
+    },
+    {
+      "epoch": 1.054380664652568,
+      "grad_norm": 0.24083495140075684,
+      "learning_rate": 7.650215591292888e-05,
+      "loss": 10.8142,
+      "step": 87
+    },
+    {
+      "epoch": 1.0906344410876132,
+      "grad_norm": 0.20766647160053253,
+      "learning_rate": 7.481003266247744e-05,
+      "loss": 10.0981,
+      "step": 90
+    },
+    {
+      "epoch": 1.1268882175226587,
+      "grad_norm": 0.19924764335155487,
+      "learning_rate": 7.307933338397667e-05,
+      "loss": 10.1149,
+      "step": 93
+    },
+    {
+      "epoch": 1.163141993957704,
+      "grad_norm": 0.2571873664855957,
+      "learning_rate": 7.131274906557725e-05,
+      "loss": 10.134,
+      "step": 96
+    },
+    {
+      "epoch": 1.1993957703927491,
+      "grad_norm": 0.20171616971492767,
+      "learning_rate": 6.95130264914993e-05,
+      "loss": 10.2961,
+      "step": 99
+    },
+    {
+      "epoch": 1.2356495468277946,
+      "grad_norm": 0.2096317708492279,
+      "learning_rate": 6.768296397117848e-05,
+      "loss": 10.2312,
+      "step": 102
+    },
+    {
+      "epoch": 1.2719033232628398,
+      "grad_norm": 0.28320643305778503,
+      "learning_rate": 6.582540698829781e-05,
+      "loss": 10.2853,
+      "step": 105
+    },
+    {
+      "epoch": 1.2719033232628398,
+      "eval_loss": 10.228970527648926,
+      "eval_runtime": 0.2716,
+      "eval_samples_per_second": 515.557,
+      "eval_steps_per_second": 66.286,
+      "step": 105
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 11712819363840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null