Training in progress, step 192, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +298 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c20649d21e084ccb9c0b6b6024c86e7b27db95642faabeb51bf0946787f9232
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:204371b3189a9e0d60b1a70b01af593ba988d75cf30b386120fd7493d01f2fc6
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57b8241fb5b7e78bbda33f65c8b5d60a3c2f7fca9a8a2925a10b387dafc10209
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:11e9ed2e1f974fff7bf97c5454240421cad6ed7f038ef60c3686c1dafbe2af42
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce77f5bcd382470614be890ecedbc1c5b65fc2941d097f54f562f397ee1b4204
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9019d2347240393dd1a2c212e11f37d00de8c19095a9bc69b4bb6f2337ffe4b7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b21572f60c57282eaf510fd67405af43bbdd1915614e42250619ba76257dea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd7378526c26b25312f7867118a6b4fdf26dc64ecd157b60ae548c66129cd40
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 2.497835874557495,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 2.3529411764705883,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,300 @@
       "eval_samples_per_second": 13.229,
       "eval_steps_per_second": 3.307,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1406,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.0480900726784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 2.497835874557495,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 3.011764705882353,
   "eval_steps": 50,
+  "global_step": 192,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.229,
       "eval_steps_per_second": 3.307,
       "step": 150
+    },
+    {
+      "epoch": 2.368627450980392,
+      "grad_norm": 0.6354141235351562,
+      "learning_rate": 1.2007741992771065e-05,
+      "loss": 2.0553,
+      "step": 151
+    },
+    {
+      "epoch": 2.384313725490196,
+      "grad_norm": 0.7069724798202515,
+      "learning_rate": 1.145234126025102e-05,
+      "loss": 2.1107,
+      "step": 152
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7220402359962463,
+      "learning_rate": 1.090842587659851e-05,
+      "loss": 2.0186,
+      "step": 153
+    },
+    {
+      "epoch": 2.4156862745098038,
+      "grad_norm": 0.8067901134490967,
+      "learning_rate": 1.0376157902445488e-05,
+      "loss": 1.997,
+      "step": 154
+    },
+    {
+      "epoch": 2.431372549019608,
+      "grad_norm": 0.8723448514938354,
+      "learning_rate": 9.85569592805588e-06,
+      "loss": 2.0568,
+      "step": 155
+    },
+    {
+      "epoch": 2.447058823529412,
+      "grad_norm": 0.9434618949890137,
+      "learning_rate": 9.347195026073369e-06,
+      "loss": 1.9484,
+      "step": 156
+    },
+    {
+      "epoch": 2.462745098039216,
+      "grad_norm": 1.2919942140579224,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 2.0413,
+      "step": 157
+    },
+    {
+      "epoch": 2.4784313725490197,
+      "grad_norm": 0.8914510607719421,
+      "learning_rate": 8.366678865639688e-06,
+      "loss": 2.136,
+      "step": 158
+    },
+    {
+      "epoch": 2.4941176470588236,
+      "grad_norm": 0.45241811871528625,
+      "learning_rate": 7.894955753859413e-06,
+      "loss": 1.95,
+      "step": 159
+    },
+    {
+      "epoch": 2.5098039215686274,
+      "grad_norm": 0.5093364715576172,
+      "learning_rate": 7.435777920782444e-06,
+      "loss": 2.1615,
+      "step": 160
+    },
+    {
+      "epoch": 2.5254901960784313,
+      "grad_norm": 0.5468050837516785,
+      "learning_rate": 6.989282179324963e-06,
+      "loss": 2.1543,
+      "step": 161
+    },
+    {
+      "epoch": 2.541176470588235,
+      "grad_norm": 0.5462315082550049,
+      "learning_rate": 6.555601563749675e-06,
+      "loss": 2.1315,
+      "step": 162
+    },
+    {
+      "epoch": 2.556862745098039,
+      "grad_norm": 0.6020755767822266,
+      "learning_rate": 6.1348652900279025e-06,
+      "loss": 2.2727,
+      "step": 163
+    },
+    {
+      "epoch": 2.572549019607843,
+      "grad_norm": 0.6015859246253967,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 2.1035,
+      "step": 164
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 0.6677731871604919,
+      "learning_rate": 5.332723310721854e-06,
+      "loss": 2.1539,
+      "step": 165
+    },
+    {
+      "epoch": 2.603921568627451,
+      "grad_norm": 0.7184847593307495,
+      "learning_rate": 4.951556604879048e-06,
+      "loss": 2.1104,
+      "step": 166
+    },
+    {
+      "epoch": 2.619607843137255,
+      "grad_norm": 0.7267415523529053,
+      "learning_rate": 4.5838121691623e-06,
+      "loss": 2.0935,
+      "step": 167
+    },
+    {
+      "epoch": 2.635294117647059,
+      "grad_norm": 0.8061967492103577,
+      "learning_rate": 4.229599573731685e-06,
+      "loss": 2.186,
+      "step": 168
+    },
+    {
+      "epoch": 2.6509803921568627,
+      "grad_norm": 0.872096836566925,
+      "learning_rate": 3.8890243569094874e-06,
+      "loss": 2.2811,
+      "step": 169
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.9103512167930603,
+      "learning_rate": 3.5621879937348836e-06,
+      "loss": 2.0644,
+      "step": 170
+    },
+    {
+      "epoch": 2.682352941176471,
+      "grad_norm": 0.9733991622924805,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 1.9821,
+      "step": 171
+    },
+    {
+      "epoch": 2.6980392156862747,
+      "grad_norm": 1.33379065990448,
+      "learning_rate": 2.950117231881183e-06,
+      "loss": 2.0174,
+      "step": 172
+    },
+    {
+      "epoch": 2.7137254901960786,
+      "grad_norm": 0.9886175394058228,
+      "learning_rate": 2.6650652008597068e-06,
+      "loss": 2.3795,
+      "step": 173
+    },
+    {
+      "epoch": 2.7294117647058824,
+      "grad_norm": 0.4592796266078949,
+      "learning_rate": 2.3941167044642944e-06,
+      "loss": 1.892,
+      "step": 174
+    },
+    {
+      "epoch": 2.7450980392156863,
+      "grad_norm": 0.5413078665733337,
+      "learning_rate": 2.137352472319215e-06,
+      "loss": 2.2523,
+      "step": 175
+    },
+    {
+      "epoch": 2.76078431372549,
+      "grad_norm": 0.5450495481491089,
+      "learning_rate": 1.8948490078199764e-06,
+      "loss": 2.207,
+      "step": 176
+    },
+    {
+      "epoch": 2.776470588235294,
+      "grad_norm": 0.5484597086906433,
+      "learning_rate": 1.6666785653390249e-06,
+      "loss": 2.1261,
+      "step": 177
+    },
+    {
+      "epoch": 2.792156862745098,
+      "grad_norm": 0.6012923121452332,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 2.2482,
+      "step": 178
+    },
+    {
+      "epoch": 2.8078431372549018,
+      "grad_norm": 0.6597626805305481,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 2.2572,
+      "step": 179
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 0.6608418822288513,
+      "learning_rate": 1.0688237352022345e-06,
+      "loss": 2.2363,
+      "step": 180
+    },
+    {
+      "epoch": 2.83921568627451,
+      "grad_norm": 0.6887637376785278,
+      "learning_rate": 8.986222173284875e-07,
+      "loss": 2.1163,
+      "step": 181
+    },
+    {
+      "epoch": 2.854901960784314,
+      "grad_norm": 0.728211522102356,
+      "learning_rate": 7.4305054915631e-07,
+      "loss": 2.1268,
+      "step": 182
+    },
+    {
+      "epoch": 2.8705882352941177,
+      "grad_norm": 0.796875536441803,
+      "learning_rate": 6.021550835626777e-07,
+      "loss": 2.1706,
+      "step": 183
+    },
+    {
+      "epoch": 2.8862745098039215,
+      "grad_norm": 0.855240523815155,
+      "learning_rate": 4.7597780062184073e-07,
+      "loss": 2.1735,
+      "step": 184
+    },
+    {
+      "epoch": 2.9019607843137254,
+      "grad_norm": 0.899287760257721,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 1.9215,
+      "step": 185
+    },
+    {
+      "epoch": 2.9176470588235293,
+      "grad_norm": 0.957107663154602,
+      "learning_rate": 2.6792376524036877e-07,
+      "loss": 1.8281,
+      "step": 186
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "grad_norm": 1.1885648965835571,
+      "learning_rate": 1.8610900289867673e-07,
+      "loss": 2.0065,
+      "step": 187
+    },
+    {
+      "epoch": 2.9490196078431374,
+      "grad_norm": 0.9298829436302185,
+      "learning_rate": 1.191363849376237e-07,
+      "loss": 2.2486,
+      "step": 188
+    },
+    {
+      "epoch": 2.9647058823529413,
+      "grad_norm": 0.5273903608322144,
+      "learning_rate": 6.702586597719385e-08,
+      "loss": 1.838,
+      "step": 189
+    },
+    {
+      "epoch": 2.980392156862745,
+      "grad_norm": 0.7140518426895142,
+      "learning_rate": 2.9792972446479605e-08,
+      "loss": 2.2171,
+      "step": 190
+    },
+    {
+      "epoch": 2.996078431372549,
+      "grad_norm": 1.283398151397705,
+      "learning_rate": 7.448797957526621e-09,
+      "loss": 2.4425,
+      "step": 191
+    },
+    {
+      "epoch": 3.011764705882353,
+      "grad_norm": 0.6145690083503723,
+      "learning_rate": 0.0,
+      "loss": 2.2341,
+      "step": 192
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.62298517110784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null