Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +372 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d138b2340fce77a57b364be4fb36a68364e28bf7877a959a31cefa6fea705da
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:0db946f775ccb5ba4a06a837b63d8dbe0dccf2b7d60ef0a51db088e27dac3d08
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a35f8e235219c612f2d1faa780b8698ed2c02f9129dacff6420e00aa551c897
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:a33e1e214a57b65e64a9d63813258f47ce7bc593d1cfb78b6de31bfdf5a37061
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bd6ab12bc95fa2fed6a3cfa157b8cfb86523cba81e2ec321444e6d6dc6ac824
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11d05e2e2da41f66386e3c25c1fbe7ac37225b844727ab5b3d3034ce17892760
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe157715eb8e05b3bab2a7f2fafac33705dc4a1a9dd7f6d860c3a7f9597d78bb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.843121703539509e-06,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.47468354430379744,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,372 @@
       "eval_samples_per_second": 11.859,
       "eval_steps_per_second": 1.66,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1136,12 +1502,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.364765716348928e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.6292572076490615e-06,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.6329113924050633,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.859,
       "eval_steps_per_second": 1.66,
       "step": 150
+    },
+    {
+      "epoch": 0.4778481012658228,
+      "grad_norm": 0.00012051728117512539,
+      "learning_rate": 4.659698863221513e-05,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.4810126582278481,
+      "grad_norm": 0.00011531780182849616,
+      "learning_rate": 4.481448235912671e-05,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.48417721518987344,
+      "grad_norm": 0.00010769336222438142,
+      "learning_rate": 4.306073275629044e-05,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.4873417721518987,
+      "grad_norm": 0.00013767057680524886,
+      "learning_rate": 4.133621928133665e-05,
+      "loss": 0.0,
+      "step": 154
+    },
+    {
+      "epoch": 0.49050632911392406,
+      "grad_norm": 0.0001291928201681003,
+      "learning_rate": 3.964141339903026e-05,
+      "loss": 0.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.4936708860759494,
+      "grad_norm": 0.00012577274173963815,
+      "learning_rate": 3.797677845237696e-05,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.49683544303797467,
+      "grad_norm": 0.00012321483518462628,
+      "learning_rate": 3.634276953594982e-05,
+      "loss": 0.0,
+      "step": 157
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.0001265611790586263,
+      "learning_rate": 3.473983337147118e-05,
+      "loss": 0.0,
+      "step": 158
+    },
+    {
+      "epoch": 0.5031645569620253,
+      "grad_norm": 0.00011362250370439142,
+      "learning_rate": 3.316840818568315e-05,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.5063291139240507,
+      "grad_norm": 0.00011914438073290512,
+      "learning_rate": 3.162892359054098e-05,
+      "loss": 0.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.509493670886076,
+      "grad_norm": 0.000137827213620767,
+      "learning_rate": 3.0121800465761293e-05,
+      "loss": 0.0,
+      "step": 161
+    },
+    {
+      "epoch": 0.5126582278481012,
+      "grad_norm": 0.00015057259588502347,
+      "learning_rate": 2.8647450843757897e-05,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.5158227848101266,
+      "grad_norm": 0.00012548854283522815,
+      "learning_rate": 2.7206277796996144e-05,
+      "loss": 0.0,
+      "step": 163
+    },
+    {
+      "epoch": 0.5189873417721519,
+      "grad_norm": 0.0001145464921137318,
+      "learning_rate": 2.5798675327796993e-05,
+      "loss": 0.0,
+      "step": 164
+    },
+    {
+      "epoch": 0.5221518987341772,
+      "grad_norm": 0.00010434888827148825,
+      "learning_rate": 2.4425028260620715e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.5253164556962026,
+      "grad_norm": 0.00012244140089023858,
+      "learning_rate": 2.3085712136859668e-05,
+      "loss": 0.0,
+      "step": 166
+    },
+    {
+      "epoch": 0.5284810126582279,
+      "grad_norm": 0.00012237390910740942,
+      "learning_rate": 2.178109311216913e-05,
+      "loss": 0.0,
+      "step": 167
+    },
+    {
+      "epoch": 0.5316455696202531,
+      "grad_norm": 0.00011009560694219545,
+      "learning_rate": 2.0511527856363912e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.5348101265822784,
+      "grad_norm": 0.00012580900511238724,
+      "learning_rate": 1.927736345590839e-05,
+      "loss": 0.0,
+      "step": 169
+    },
+    {
+      "epoch": 0.5379746835443038,
+      "grad_norm": 0.00011217856081202626,
+      "learning_rate": 1.8078937319026654e-05,
+      "loss": 0.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.5411392405063291,
+      "grad_norm": 0.00013822820619679987,
+      "learning_rate": 1.6916577083458228e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.5443037974683544,
+      "grad_norm": 0.00010555924382060766,
+      "learning_rate": 1.579060052688548e-05,
+      "loss": 0.0,
+      "step": 172
+    },
+    {
+      "epoch": 0.5474683544303798,
+      "grad_norm": 89.5312271118164,
+      "learning_rate": 1.4701315480056164e-05,
+      "loss": 0.0878,
+      "step": 173
+    },
+    {
+      "epoch": 0.5506329113924051,
+      "grad_norm": 0.00011430850281612948,
+      "learning_rate": 1.3649019742625623e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.5537974683544303,
+      "grad_norm": 0.00012487309868447483,
+      "learning_rate": 1.2634001001741373e-05,
+      "loss": 0.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.5537974683544303,
+      "eval_loss": 3.6144081150268903e-06,
+      "eval_runtime": 4.2142,
+      "eval_samples_per_second": 11.865,
+      "eval_steps_per_second": 1.661,
+      "step": 175
+    },
+    {
+      "epoch": 0.5569620253164557,
+      "grad_norm": 9.939469600794837e-05,
+      "learning_rate": 1.1656536753392287e-05,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 0.560126582278481,
+      "grad_norm": 0.00010342976020183414,
+      "learning_rate": 1.0716894226543953e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.5632911392405063,
+      "grad_norm": 0.00010325428593205288,
+      "learning_rate": 9.815330310080887e-06,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 0.5664556962025317,
+      "grad_norm": 0.00011689613165799528,
+      "learning_rate": 8.952091482575824e-06,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 0.569620253164557,
+      "grad_norm": 0.00013029357069171965,
+      "learning_rate": 8.127413744904804e-06,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.5727848101265823,
+      "grad_norm": 0.00013230131298769265,
+      "learning_rate": 7.34152255572697e-06,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 0.5759493670886076,
+      "grad_norm": 0.00012508702639024705,
+      "learning_rate": 6.594632769846353e-06,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 0.5791139240506329,
+      "grad_norm": 0.00011323285434627905,
+      "learning_rate": 5.886948579472778e-06,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.5822784810126582,
+      "grad_norm": 0.00010946433030767366,
+      "learning_rate": 5.218663458397715e-06,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 0.5854430379746836,
+      "grad_norm": 0.0001123738256865181,
+      "learning_rate": 4.589960109100444e-06,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.5886075949367089,
+      "grad_norm": 0.0001037807232933119,
+      "learning_rate": 4.001010412799138e-06,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.5917721518987342,
+      "grad_norm": 0.0001033179578371346,
+      "learning_rate": 3.451975382460109e-06,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 0.5949367088607594,
+      "grad_norm": 0.0001089375073206611,
+      "learning_rate": 2.9430051187785962e-06,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 0.5981012658227848,
+      "grad_norm": 0.00010035360173787922,
+      "learning_rate": 2.4742387691426445e-06,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.6012658227848101,
+      "grad_norm": 0.00011862103565363213,
+      "learning_rate": 2.0458044895916513e-06,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.6044303797468354,
+      "grad_norm": 0.00011845329572679475,
+      "learning_rate": 1.6578194097797258e-06,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 0.6075949367088608,
+      "grad_norm": 0.0001070655562216416,
+      "learning_rate": 1.3103896009537207e-06,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.6107594936708861,
+      "grad_norm": 0.00010345505870645866,
+      "learning_rate": 1.0036100469542786e-06,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 0.6139240506329114,
+      "grad_norm": 0.00010370357631472871,
+      "learning_rate": 7.375646182482875e-07,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 0.6170886075949367,
+      "grad_norm": 0.0001055766042554751,
+      "learning_rate": 5.123260489995229e-07,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.620253164556962,
+      "grad_norm": 0.00010368825314799324,
+      "learning_rate": 3.2795591718381975e-07,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 0.6234177215189873,
+      "grad_norm": 8.988654735730961e-05,
+      "learning_rate": 1.8450462775428942e-07,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 0.6265822784810127,
+      "grad_norm": 9.781260450836271e-05,
+      "learning_rate": 8.201139886109264e-08,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.629746835443038,
+      "grad_norm": 0.000103578349808231,
+      "learning_rate": 2.0504251129649374e-08,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 0.6329113924050633,
+      "grad_norm": 0.00010729693894973025,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.6329113924050633,
+      "eval_loss": 3.6292572076490615e-06,
+      "eval_runtime": 4.2103,
+      "eval_samples_per_second": 11.876,
+      "eval_steps_per_second": 1.663,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.153020955131904e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null