Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3d7811f0d3c91eb0559d6dd57dbab4cbf46345245cf1dada768a60472fe8396
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7019cb9aa201aea19db1270f90077e433f32992e44dade7548821d8c154f8dd
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da6d858e7d81bec94e9df9f841ded71cbba3baa78c5d5662bbc2267370154ae
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:386c3f379a00095fe8496f8f431507c91666e8cfccb1ccdbd5d46ffa72194cd7
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8c9d729ce54890d2b004e8818490177e5625467f75e54adee6318c935eb7ad9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a23fd22389371cc845ff538f36c85d6acc6b9021c5b65cb5faef2f7e821d95a8
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eea2c85c433dc178f7297992565db28a1eab3bd318e64c50f31cc218f4874305
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fb312fb50ba43fd98c0b5fe4042c1e3ef9cd58378ec0d1e1bf5c56e15568b12
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:824a76a21878d4877c2046d8ad58c4e61f8b4afa79156f487f81a3613095e08d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4689c594a2b486efb36e60e76c3ec318218071433606da34ac3dcedbc93ca127
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4174057fda88174f282bba24bb30a94ae554b6014d600262e9ee53ba95563faf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ba2494af9fc250e587279ec6c23697d4a4eee3ba750a8eea5d8a07f578adf0b
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bab2e2e6d5938b4266045afdacf5782a91c8e156838fe5f46422cf8b6d4d279
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:42c29d847f75ce9649efda10a945d3da08ad95d9c7cdbd2e690e733de315eb64
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7033360004425049,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 1.1439466158245948,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,372 @@
       "eval_samples_per_second": 178.678,
       "eval_steps_per_second": 46.456,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1141,7 +1507,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.66420413202432e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6848325729370117,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 1.5252621544327931,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 178.678,
       "eval_steps_per_second": 46.456,
       "step": 150
+    },
+    {
+      "epoch": 1.1515729265967587,
+      "grad_norm": 0.38320392370224,
+      "learning_rate": 0.00013866280652782267,
+      "loss": 1.6258,
+      "step": 151
+    },
+    {
+      "epoch": 1.1591992373689228,
+      "grad_norm": 0.3931479752063751,
+      "learning_rate": 0.00013703996421405052,
+      "loss": 1.6313,
+      "step": 152
+    },
+    {
+      "epoch": 1.1668255481410867,
+      "grad_norm": 0.4570615589618683,
+      "learning_rate": 0.00013542133257882257,
+      "loss": 1.6801,
+      "step": 153
+    },
+    {
+      "epoch": 1.1744518589132507,
+      "grad_norm": 0.47714921832084656,
+      "learning_rate": 0.0001338071553821094,
+      "loss": 1.6307,
+      "step": 154
+    },
+    {
+      "epoch": 1.1820781696854148,
+      "grad_norm": 0.4591121971607208,
+      "learning_rate": 0.00013219767571305937,
+      "loss": 1.7064,
+      "step": 155
+    },
+    {
+      "epoch": 1.1897044804575787,
+      "grad_norm": 0.5732882022857666,
+      "learning_rate": 0.00013059313595339053,
+      "loss": 1.7405,
+      "step": 156
+    },
+    {
+      "epoch": 1.1973307912297426,
+      "grad_norm": 0.4108792543411255,
+      "learning_rate": 0.00012899377774088872,
+      "loss": 1.6063,
+      "step": 157
+    },
+    {
+      "epoch": 1.2049571020019065,
+      "grad_norm": 0.42478087544441223,
+      "learning_rate": 0.00012739984193301784,
+      "loss": 1.5782,
+      "step": 158
+    },
+    {
+      "epoch": 1.2125834127740704,
+      "grad_norm": 0.44489574432373047,
+      "learning_rate": 0.0001258115685706476,
+      "loss": 1.5959,
+      "step": 159
+    },
+    {
+      "epoch": 1.2202097235462346,
+      "grad_norm": 0.41875404119491577,
+      "learning_rate": 0.0001242291968419042,
+      "loss": 1.6163,
+      "step": 160
+    },
+    {
+      "epoch": 1.2278360343183985,
+      "grad_norm": 0.3827251195907593,
+      "learning_rate": 0.00012265296504614963,
+      "loss": 1.6228,
+      "step": 161
+    },
+    {
+      "epoch": 1.2354623450905624,
+      "grad_norm": 0.3817841112613678,
+      "learning_rate": 0.0001210831105580945,
+      "loss": 1.5694,
+      "step": 162
+    },
+    {
+      "epoch": 1.2430886558627263,
+      "grad_norm": 0.3716193735599518,
+      "learning_rate": 0.00011951986979205029,
+      "loss": 1.6367,
+      "step": 163
+    },
+    {
+      "epoch": 1.2507149666348902,
+      "grad_norm": 0.37516316771507263,
+      "learning_rate": 0.00011796347816632634,
+      "loss": 1.6157,
+      "step": 164
+    },
+    {
+      "epoch": 1.2583412774070544,
+      "grad_norm": 0.4124738276004791,
+      "learning_rate": 0.00011641417006777658,
+      "loss": 1.5697,
+      "step": 165
+    },
+    {
+      "epoch": 1.2659675881792183,
+      "grad_norm": 0.4279733896255493,
+      "learning_rate": 0.00011487217881650195,
+      "loss": 1.6447,
+      "step": 166
+    },
+    {
+      "epoch": 1.2735938989513822,
+      "grad_norm": 0.4881094992160797,
+      "learning_rate": 0.00011333773663071288,
+      "loss": 1.6122,
+      "step": 167
+    },
+    {
+      "epoch": 1.2812202097235463,
+      "grad_norm": 0.521618127822876,
+      "learning_rate": 0.00011181107459175851,
+      "loss": 1.7202,
+      "step": 168
+    },
+    {
+      "epoch": 1.2888465204957102,
+      "grad_norm": 0.3777306079864502,
+      "learning_rate": 0.00011029242260932638,
+      "loss": 1.5756,
+      "step": 169
+    },
+    {
+      "epoch": 1.2964728312678742,
+      "grad_norm": 0.4733025133609772,
+      "learning_rate": 0.000108782009386819,
+      "loss": 1.6479,
+      "step": 170
+    },
+    {
+      "epoch": 1.304099142040038,
+      "grad_norm": 0.41860291361808777,
+      "learning_rate": 0.00010728006238691194,
+      "loss": 1.5983,
+      "step": 171
+    },
+    {
+      "epoch": 1.311725452812202,
+      "grad_norm": 0.46844813227653503,
+      "learning_rate": 0.00010578680779729879,
+      "loss": 1.578,
+      "step": 172
+    },
+    {
+      "epoch": 1.3193517635843661,
+      "grad_norm": 0.40656524896621704,
+      "learning_rate": 0.0001043024704966281,
+      "loss": 1.6255,
+      "step": 173
+    },
+    {
+      "epoch": 1.32697807435653,
+      "grad_norm": 0.38256990909576416,
+      "learning_rate": 0.00010282727402063758,
+      "loss": 1.5675,
+      "step": 174
+    },
+    {
+      "epoch": 1.334604385128694,
+      "grad_norm": 0.3779941201210022,
+      "learning_rate": 0.00010136144052849031,
+      "loss": 1.5789,
+      "step": 175
+    },
+    {
+      "epoch": 1.334604385128694,
+      "eval_loss": 1.695977807044983,
+      "eval_runtime": 0.2808,
+      "eval_samples_per_second": 178.081,
+      "eval_steps_per_second": 46.301,
+      "step": 175
+    },
+    {
+      "epoch": 1.342230695900858,
+      "grad_norm": 0.3875720798969269,
+      "learning_rate": 9.990519076931843e-05,
+      "loss": 1.656,
+      "step": 176
+    },
+    {
+      "epoch": 1.349857006673022,
+      "grad_norm": 0.38068655133247375,
+      "learning_rate": 9.845874404897915e-05,
+      "loss": 1.623,
+      "step": 177
+    },
+    {
+      "epoch": 1.357483317445186,
+      "grad_norm": 0.4605511724948883,
+      "learning_rate": 9.702231819702814e-05,
+      "loss": 1.627,
+      "step": 178
+    },
+    {
+      "epoch": 1.3651096282173498,
+      "grad_norm": 0.4176296889781952,
+      "learning_rate": 9.559612953391507e-05,
+      "loss": 1.6706,
+      "step": 179
+    },
+    {
+      "epoch": 1.3727359389895137,
+      "grad_norm": 0.4767864942550659,
+      "learning_rate": 9.418039283840671e-05,
+      "loss": 1.6709,
+      "step": 180
+    },
+    {
+      "epoch": 1.3803622497616779,
+      "grad_norm": 0.567336916923523,
+      "learning_rate": 9.27753213152419e-05,
+      "loss": 1.8214,
+      "step": 181
+    },
+    {
+      "epoch": 1.3879885605338418,
+      "grad_norm": 0.4051623046398163,
+      "learning_rate": 9.138112656302376e-05,
+      "loss": 1.6248,
+      "step": 182
+    },
+    {
+      "epoch": 1.3956148713060057,
+      "grad_norm": 0.380164235830307,
+      "learning_rate": 8.999801854235373e-05,
+      "loss": 1.5668,
+      "step": 183
+    },
+    {
+      "epoch": 1.4032411820781696,
+      "grad_norm": 0.37853559851646423,
+      "learning_rate": 8.862620554421221e-05,
+      "loss": 1.6079,
+      "step": 184
+    },
+    {
+      "epoch": 1.4108674928503335,
+      "grad_norm": 0.38022464513778687,
+      "learning_rate": 8.726589415859088e-05,
+      "loss": 1.6109,
+      "step": 185
+    },
+    {
+      "epoch": 1.4184938036224977,
+      "grad_norm": 0.3726414442062378,
+      "learning_rate": 8.591728924338075e-05,
+      "loss": 1.5726,
+      "step": 186
+    },
+    {
+      "epoch": 1.4261201143946616,
+      "grad_norm": 0.39313751459121704,
+      "learning_rate": 8.45805938935215e-05,
+      "loss": 1.5881,
+      "step": 187
+    },
+    {
+      "epoch": 1.4337464251668255,
+      "grad_norm": 0.40941789746284485,
+      "learning_rate": 8.325600941041607e-05,
+      "loss": 1.6375,
+      "step": 188
+    },
+    {
+      "epoch": 1.4413727359389896,
+      "grad_norm": 0.38843002915382385,
+      "learning_rate": 8.194373527161539e-05,
+      "loss": 1.5911,
+      "step": 189
+    },
+    {
+      "epoch": 1.4489990467111535,
+      "grad_norm": 0.38351744413375854,
+      "learning_rate": 8.064396910077785e-05,
+      "loss": 1.6153,
+      "step": 190
+    },
+    {
+      "epoch": 1.4566253574833175,
+      "grad_norm": 0.42547914385795593,
+      "learning_rate": 7.935690663790787e-05,
+      "loss": 1.5872,
+      "step": 191
+    },
+    {
+      "epoch": 1.4642516682554814,
+      "grad_norm": 0.45052269101142883,
+      "learning_rate": 7.808274170987818e-05,
+      "loss": 1.6048,
+      "step": 192
+    },
+    {
+      "epoch": 1.4718779790276453,
+      "grad_norm": 0.5102285742759705,
+      "learning_rate": 7.682166620124017e-05,
+      "loss": 1.6611,
+      "step": 193
+    },
+    {
+      "epoch": 1.4795042897998094,
+      "grad_norm": 0.3973918855190277,
+      "learning_rate": 7.55738700253268e-05,
+      "loss": 1.6591,
+      "step": 194
+    },
+    {
+      "epoch": 1.4871306005719733,
+      "grad_norm": 0.4221573770046234,
+      "learning_rate": 7.43395410956525e-05,
+      "loss": 1.5788,
+      "step": 195
+    },
+    {
+      "epoch": 1.4947569113441372,
+      "grad_norm": 0.38037997484207153,
+      "learning_rate": 7.311886529761383e-05,
+      "loss": 1.543,
+      "step": 196
+    },
+    {
+      "epoch": 1.5023832221163014,
+      "grad_norm": 0.3961423635482788,
+      "learning_rate": 7.191202646049596e-05,
+      "loss": 1.5559,
+      "step": 197
+    },
+    {
+      "epoch": 1.510009532888465,
+      "grad_norm": 0.40945950150489807,
+      "learning_rate": 7.071920632978867e-05,
+      "loss": 1.6016,
+      "step": 198
+    },
+    {
+      "epoch": 1.5176358436606292,
+      "grad_norm": 0.3885650038719177,
+      "learning_rate": 6.954058453981609e-05,
+      "loss": 1.587,
+      "step": 199
+    },
+    {
+      "epoch": 1.5252621544327931,
+      "grad_norm": 0.4135299623012543,
+      "learning_rate": 6.837633858668448e-05,
+      "loss": 1.6103,
+      "step": 200
+    },
+    {
+      "epoch": 1.5252621544327931,
+      "eval_loss": 1.6848325729370117,
+      "eval_runtime": 0.2814,
+      "eval_samples_per_second": 177.685,
+      "eval_steps_per_second": 46.198,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.88560550936576e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null