Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:099b8bba45aba11b023007256989652eba0a6e560310454116a2d35b1235735f
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:02fc39f2daf6538a761d79a4a9821915f3a0ef991c7629a5d1516844b4df1ad1
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59b91e48a0e77b5cd014d852a2cc690e6582f5b71d74cd2e578cc4590c873235
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:135c69b1042b5782c2122d06735090cb5b8a71b843d600d346aacd2048bde5bc
 size 1342555602

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dbc28e935c0c73c1d275a124637be8e356025288acd00e59145192834004760
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:1188113437dccf1554325392fda6ed9b91382e5090e747fd8b073f8dbb1e96f8
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3228ab812fade3c3337351e2021d33892c0784d2b2ad7070d4ac7502259bbbb7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:64194f11120eb9086778b5a9e9dea2e6165e42465714ef7883e498a66c195fa4
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce80c949487a52236cd916ed752ce9a8c3eb5c2bd28c42d897774050919f6620
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c319d645e1ecba2da764cebd8ede4c304000887fd3a1da14625cd3e3d1acc25
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c9dfe4a26afc07887f676323b3135c4df6b4c0c8627bcf4c8ec8ed37b83cd09
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d545ab9d22844f8f9595399c8f23fd75b437029b459749f4ccb5a39173dfd98c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d754412c61116546142914503e7369d0cc35d3c380a07e5218f595d76b6d96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8764427304267883,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.13114754098360656,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 32.821,
       "eval_steps_per_second": 4.103,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.3383423944325857e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.873114287853241,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.17486338797814208,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.821,
       "eval_steps_per_second": 4.103,
       "step": 150
+    },
+    {
+      "epoch": 0.13202185792349727,
+      "grad_norm": 2.3986220359802246,
+      "learning_rate": 1.9136088935510362e-05,
+      "loss": 4.8648,
+      "step": 151
+    },
+    {
+      "epoch": 0.13289617486338798,
+      "grad_norm": 2.2407279014587402,
+      "learning_rate": 1.8414449687337464e-05,
+      "loss": 4.6511,
+      "step": 152
+    },
+    {
+      "epoch": 0.13377049180327868,
+      "grad_norm": 2.1533641815185547,
+      "learning_rate": 1.7703596875660645e-05,
+      "loss": 4.4463,
+      "step": 153
+    },
+    {
+      "epoch": 0.1346448087431694,
+      "grad_norm": 2.213867664337158,
+      "learning_rate": 1.700377325606388e-05,
+      "loss": 4.148,
+      "step": 154
+    },
+    {
+      "epoch": 0.1355191256830601,
+      "grad_norm": 2.4254682064056396,
+      "learning_rate": 1.631521781767214e-05,
+      "loss": 4.1375,
+      "step": 155
+    },
+    {
+      "epoch": 0.13639344262295083,
+      "grad_norm": 2.112515926361084,
+      "learning_rate": 1.5638165701536868e-05,
+      "loss": 3.3833,
+      "step": 156
+    },
+    {
+      "epoch": 0.13726775956284154,
+      "grad_norm": 2.3829903602600098,
+      "learning_rate": 1.4972848120335453e-05,
+      "loss": 0.7525,
+      "step": 157
+    },
+    {
+      "epoch": 0.13814207650273225,
+      "grad_norm": 2.563307285308838,
+      "learning_rate": 1.4319492279412388e-05,
+      "loss": 3.7063,
+      "step": 158
+    },
+    {
+      "epoch": 0.13901639344262295,
+      "grad_norm": 2.7017548084259033,
+      "learning_rate": 1.3678321299188801e-05,
+      "loss": 3.9618,
+      "step": 159
+    },
+    {
+      "epoch": 0.13989071038251366,
+      "grad_norm": 2.6008596420288086,
+      "learning_rate": 1.3049554138967051e-05,
+      "loss": 3.734,
+      "step": 160
+    },
+    {
+      "epoch": 0.14076502732240437,
+      "grad_norm": 2.9204273223876953,
+      "learning_rate": 1.2433405522156332e-05,
+      "loss": 3.784,
+      "step": 161
+    },
+    {
+      "epoch": 0.14163934426229507,
+      "grad_norm": 3.1361289024353027,
+      "learning_rate": 1.183008586294485e-05,
+      "loss": 3.6877,
+      "step": 162
+    },
+    {
+      "epoch": 0.14251366120218578,
+      "grad_norm": 3.1373820304870605,
+      "learning_rate": 1.1239801194443506e-05,
+      "loss": 3.6498,
+      "step": 163
+    },
+    {
+      "epoch": 0.14338797814207652,
+      "grad_norm": 2.2501583099365234,
+      "learning_rate": 1.066275309832584e-05,
+      "loss": 4.6874,
+      "step": 164
+    },
+    {
+      "epoch": 0.14426229508196722,
+      "grad_norm": 2.2276012897491455,
+      "learning_rate": 1.0099138635988026e-05,
+      "loss": 4.3985,
+      "step": 165
+    },
+    {
+      "epoch": 0.14513661202185793,
+      "grad_norm": 2.23185396194458,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 4.1861,
+      "step": 166
+    },
+    {
+      "epoch": 0.14601092896174864,
+      "grad_norm": 2.2156951427459717,
+      "learning_rate": 9.012975854638949e-06,
+      "loss": 4.1338,
+      "step": 167
+    },
+    {
+      "epoch": 0.14688524590163934,
+      "grad_norm": 2.551830768585205,
+      "learning_rate": 8.490798459222476e-06,
+      "loss": 3.773,
+      "step": 168
+    },
+    {
+      "epoch": 0.14775956284153005,
+      "grad_norm": 3.3470065593719482,
+      "learning_rate": 7.982796418105371e-06,
+      "loss": 0.8881,
+      "step": 169
+    },
+    {
+      "epoch": 0.14863387978142076,
+      "grad_norm": 2.816314935684204,
+      "learning_rate": 7.489143213519301e-06,
+      "loss": 2.7329,
+      "step": 170
+    },
+    {
+      "epoch": 0.14950819672131146,
+      "grad_norm": 2.5653274059295654,
+      "learning_rate": 7.010007427581378e-06,
+      "loss": 4.0418,
+      "step": 171
+    },
+    {
+      "epoch": 0.1503825136612022,
+      "grad_norm": 2.6102278232574463,
+      "learning_rate": 6.5455526847235825e-06,
+      "loss": 3.8378,
+      "step": 172
+    },
+    {
+      "epoch": 0.1512568306010929,
+      "grad_norm": 2.775442123413086,
+      "learning_rate": 6.0959375958151045e-06,
+      "loss": 3.9975,
+      "step": 173
+    },
+    {
+      "epoch": 0.1521311475409836,
+      "grad_norm": 3.188716411590576,
+      "learning_rate": 5.6613157039969055e-06,
+      "loss": 3.6231,
+      "step": 174
+    },
+    {
+      "epoch": 0.15300546448087432,
+      "grad_norm": 3.7567200660705566,
+      "learning_rate": 5.241835432246889e-06,
+      "loss": 2.8688,
+      "step": 175
+    },
+    {
+      "epoch": 0.15387978142076503,
+      "grad_norm": 2.0575270652770996,
+      "learning_rate": 4.837640032693558e-06,
+      "loss": 4.6718,
+      "step": 176
+    },
+    {
+      "epoch": 0.15475409836065573,
+      "grad_norm": 2.020214557647705,
+      "learning_rate": 4.448867537695578e-06,
+      "loss": 4.5427,
+      "step": 177
+    },
+    {
+      "epoch": 0.15562841530054644,
+      "grad_norm": 2.095630168914795,
+      "learning_rate": 4.075650712703849e-06,
+      "loss": 4.4128,
+      "step": 178
+    },
+    {
+      "epoch": 0.15650273224043715,
+      "grad_norm": 2.2130768299102783,
+      "learning_rate": 3.71811701092219e-06,
+      "loss": 4.3347,
+      "step": 179
+    },
+    {
+      "epoch": 0.15737704918032788,
+      "grad_norm": 2.1951797008514404,
+      "learning_rate": 3.376388529782215e-06,
+      "loss": 4.167,
+      "step": 180
+    },
+    {
+      "epoch": 0.1582513661202186,
+      "grad_norm": 3.484790563583374,
+      "learning_rate": 3.0505819692471792e-06,
+      "loss": 1.6968,
+      "step": 181
+    },
+    {
+      "epoch": 0.1591256830601093,
+      "grad_norm": 3.347136974334717,
+      "learning_rate": 2.7408085919590264e-06,
+      "loss": 1.7751,
+      "step": 182
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.5137221813201904,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 3.8866,
+      "step": 183
+    },
+    {
+      "epoch": 0.1608743169398907,
+      "grad_norm": 2.560753345489502,
+      "learning_rate": 2.1697790249779636e-06,
+      "loss": 4.0339,
+      "step": 184
+    },
+    {
+      "epoch": 0.16174863387978142,
+      "grad_norm": 2.5929064750671387,
+      "learning_rate": 1.908717841359048e-06,
+      "loss": 3.8982,
+      "step": 185
+    },
+    {
+      "epoch": 0.16262295081967212,
+      "grad_norm": 2.9967079162597656,
+      "learning_rate": 1.6640797865406288e-06,
+      "loss": 3.7461,
+      "step": 186
+    },
+    {
+      "epoch": 0.16349726775956283,
+      "grad_norm": 3.023080348968506,
+      "learning_rate": 1.4359484041943038e-06,
+      "loss": 3.6172,
+      "step": 187
+    },
+    {
+      "epoch": 0.16437158469945357,
+      "grad_norm": 2.8651442527770996,
+      "learning_rate": 1.2244016009781701e-06,
+      "loss": 3.7656,
+      "step": 188
+    },
+    {
+      "epoch": 0.16524590163934427,
+      "grad_norm": 2.0864920616149902,
+      "learning_rate": 1.0295116199317057e-06,
+      "loss": 4.5764,
+      "step": 189
+    },
+    {
+      "epoch": 0.16612021857923498,
+      "grad_norm": 2.047379732131958,
+      "learning_rate": 8.513450158049108e-07,
+      "loss": 4.4967,
+      "step": 190
+    },
+    {
+      "epoch": 0.1669945355191257,
+      "grad_norm": 2.158989191055298,
+      "learning_rate": 6.899626323298713e-07,
+      "loss": 4.3262,
+      "step": 191
+    },
+    {
+      "epoch": 0.1678688524590164,
+      "grad_norm": 2.2321550846099854,
+      "learning_rate": 5.454195814427021e-07,
+      "loss": 4.1591,
+      "step": 192
+    },
+    {
+      "epoch": 0.1687431693989071,
+      "grad_norm": 2.6936912536621094,
+      "learning_rate": 4.177652244628627e-07,
+      "loss": 3.9366,
+      "step": 193
+    },
+    {
+      "epoch": 0.1696174863387978,
+      "grad_norm": 3.018805742263794,
+      "learning_rate": 3.0704315523631953e-07,
+      "loss": 0.8227,
+      "step": 194
+    },
+    {
+      "epoch": 0.17049180327868851,
+      "grad_norm": 3.010286331176758,
+      "learning_rate": 2.1329118524827662e-07,
+      "loss": 2.1162,
+      "step": 195
+    },
+    {
+      "epoch": 0.17136612021857925,
+      "grad_norm": 2.539494514465332,
+      "learning_rate": 1.3654133071059893e-07,
+      "loss": 3.9971,
+      "step": 196
+    },
+    {
+      "epoch": 0.17224043715846996,
+      "grad_norm": 2.7982985973358154,
+      "learning_rate": 7.681980162830282e-08,
+      "loss": 3.7578,
+      "step": 197
+    },
+    {
+      "epoch": 0.17311475409836066,
+      "grad_norm": 2.6517112255096436,
+      "learning_rate": 3.4146992848854695e-08,
+      "loss": 3.7809,
+      "step": 198
+    },
+    {
+      "epoch": 0.17398907103825137,
+      "grad_norm": 3.0511653423309326,
+      "learning_rate": 8.537477097364522e-09,
+      "loss": 3.7375,
+      "step": 199
+    },
+    {
+      "epoch": 0.17486338797814208,
+      "grad_norm": 3.708466053009033,
+      "learning_rate": 0.0,
+      "loss": 2.7619,
+      "step": 200
+    },
+    {
+      "epoch": 0.17486338797814208,
+      "eval_loss": 0.873114287853241,
+      "eval_runtime": 233.7335,
+      "eval_samples_per_second": 32.961,
+      "eval_steps_per_second": 4.12,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.7869607753115238e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null