Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31eb39bd33cab718106002f05fe5531cb905f794d79d776dfd421105b58dfffe
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:14bcdfa60d1d25495a4a89ae67dd4c3c9abf64d957eaf6dd6015caad800b3ab6
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1f94f6c3ed3537715d4f2980cc7ed62d6f5ecc9a18a0a6b3db46d9b8bec8a2b
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:678e0bf62efb665dc285d920b4d97b6bea4c002d4bf79a42fb4dfc98386becda
 size 1342555602

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbd5c8e85a115fc025e5102ecfbce0943344642cde31fce29986fcc0039ddc1e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeea6b7e2dc8de9154ccd69814be6fe74d3d43ec82c0237e22cf03513d7f62ce
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a437bce51e8bb90272cf39e288dc010d1925b0e7337ceb5211349083943db323
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f1884a3313c903973f09b50529f55565a689cd2e0a679a7e2ca8ef65d91352f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140763b0fa3e8a34711bf7ed81085e6e71aa2a89fde0f0f399686cbaedea5927
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f24c89e0ee63f97a76f9554888c298f22dfd883fb3c4b3b9e3878d4489ee7443
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e023b587b19b62950656edaa3c4bb305bb0138307f6dd35f930dcba6d5e7d1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8c3d1a88c54120f8411a40df1a5629fdbad30246dc9f322344d9809a8aafde
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d754412c61116546142914503e7369d0cc35d3c380a07e5218f595d76b6d96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.23401835560798645,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.3883495145631068,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 39.856,
       "eval_steps_per_second": 4.992,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.700477665695498e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.22498248517513275,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.517799352750809,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.856,
       "eval_steps_per_second": 4.992,
       "step": 150
+    },
+    {
+      "epoch": 0.39093851132686086,
+      "grad_norm": 1.4624581336975098,
+      "learning_rate": 1.9136088935510362e-05,
+      "loss": 0.7601,
+      "step": 151
+    },
+    {
+      "epoch": 0.3935275080906149,
+      "grad_norm": 1.5358047485351562,
+      "learning_rate": 1.8414449687337464e-05,
+      "loss": 0.7365,
+      "step": 152
+    },
+    {
+      "epoch": 0.39611650485436894,
+      "grad_norm": 1.8620479106903076,
+      "learning_rate": 1.7703596875660645e-05,
+      "loss": 0.8749,
+      "step": 153
+    },
+    {
+      "epoch": 0.39870550161812296,
+      "grad_norm": 1.838742733001709,
+      "learning_rate": 1.700377325606388e-05,
+      "loss": 0.8029,
+      "step": 154
+    },
+    {
+      "epoch": 0.40129449838187703,
+      "grad_norm": 1.8708423376083374,
+      "learning_rate": 1.631521781767214e-05,
+      "loss": 0.8374,
+      "step": 155
+    },
+    {
+      "epoch": 0.40388349514563104,
+      "grad_norm": 1.9949666261672974,
+      "learning_rate": 1.5638165701536868e-05,
+      "loss": 0.7693,
+      "step": 156
+    },
+    {
+      "epoch": 0.4064724919093851,
+      "grad_norm": 2.179053783416748,
+      "learning_rate": 1.4972848120335453e-05,
+      "loss": 0.8748,
+      "step": 157
+    },
+    {
+      "epoch": 0.4090614886731392,
+      "grad_norm": 2.389301300048828,
+      "learning_rate": 1.4319492279412388e-05,
+      "loss": 0.9519,
+      "step": 158
+    },
+    {
+      "epoch": 0.4116504854368932,
+      "grad_norm": 2.7463135719299316,
+      "learning_rate": 1.3678321299188801e-05,
+      "loss": 0.9744,
+      "step": 159
+    },
+    {
+      "epoch": 0.41423948220064727,
+      "grad_norm": 2.8853588104248047,
+      "learning_rate": 1.3049554138967051e-05,
+      "loss": 0.9669,
+      "step": 160
+    },
+    {
+      "epoch": 0.4168284789644013,
+      "grad_norm": 3.77809739112854,
+      "learning_rate": 1.2433405522156332e-05,
+      "loss": 1.0887,
+      "step": 161
+    },
+    {
+      "epoch": 0.41941747572815535,
+      "grad_norm": 4.965099811553955,
+      "learning_rate": 1.183008586294485e-05,
+      "loss": 1.1214,
+      "step": 162
+    },
+    {
+      "epoch": 0.42200647249190937,
+      "grad_norm": 3.675790548324585,
+      "learning_rate": 1.1239801194443506e-05,
+      "loss": 0.8787,
+      "step": 163
+    },
+    {
+      "epoch": 0.42459546925566344,
+      "grad_norm": 1.4695855379104614,
+      "learning_rate": 1.066275309832584e-05,
+      "loss": 0.7685,
+      "step": 164
+    },
+    {
+      "epoch": 0.42718446601941745,
+      "grad_norm": 1.6097335815429688,
+      "learning_rate": 1.0099138635988026e-05,
+      "loss": 0.7544,
+      "step": 165
+    },
+    {
+      "epoch": 0.4297734627831715,
+      "grad_norm": 1.7829991579055786,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.8276,
+      "step": 166
+    },
+    {
+      "epoch": 0.4323624595469256,
+      "grad_norm": 1.853384017944336,
+      "learning_rate": 9.012975854638949e-06,
+      "loss": 0.8276,
+      "step": 167
+    },
+    {
+      "epoch": 0.4349514563106796,
+      "grad_norm": 1.9285295009613037,
+      "learning_rate": 8.490798459222476e-06,
+      "loss": 0.7999,
+      "step": 168
+    },
+    {
+      "epoch": 0.4375404530744337,
+      "grad_norm": 1.986692190170288,
+      "learning_rate": 7.982796418105371e-06,
+      "loss": 0.8228,
+      "step": 169
+    },
+    {
+      "epoch": 0.4401294498381877,
+      "grad_norm": 2.2278285026550293,
+      "learning_rate": 7.489143213519301e-06,
+      "loss": 0.8695,
+      "step": 170
+    },
+    {
+      "epoch": 0.44271844660194176,
+      "grad_norm": 2.41101336479187,
+      "learning_rate": 7.010007427581378e-06,
+      "loss": 0.9275,
+      "step": 171
+    },
+    {
+      "epoch": 0.4453074433656958,
+      "grad_norm": 2.734466791152954,
+      "learning_rate": 6.5455526847235825e-06,
+      "loss": 0.914,
+      "step": 172
+    },
+    {
+      "epoch": 0.44789644012944985,
+      "grad_norm": 3.5805823802948,
+      "learning_rate": 6.0959375958151045e-06,
+      "loss": 1.076,
+      "step": 173
+    },
+    {
+      "epoch": 0.45048543689320386,
+      "grad_norm": 4.150850296020508,
+      "learning_rate": 5.6613157039969055e-06,
+      "loss": 1.0419,
+      "step": 174
+    },
+    {
+      "epoch": 0.45307443365695793,
+      "grad_norm": 5.833034992218018,
+      "learning_rate": 5.241835432246889e-06,
+      "loss": 1.2505,
+      "step": 175
+    },
+    {
+      "epoch": 0.455663430420712,
+      "grad_norm": 1.305367112159729,
+      "learning_rate": 4.837640032693558e-06,
+      "loss": 0.686,
+      "step": 176
+    },
+    {
+      "epoch": 0.458252427184466,
+      "grad_norm": 1.51358962059021,
+      "learning_rate": 4.448867537695578e-06,
+      "loss": 0.7401,
+      "step": 177
+    },
+    {
+      "epoch": 0.4608414239482201,
+      "grad_norm": 1.6367487907409668,
+      "learning_rate": 4.075650712703849e-06,
+      "loss": 0.7588,
+      "step": 178
+    },
+    {
+      "epoch": 0.4634304207119741,
+      "grad_norm": 1.768928050994873,
+      "learning_rate": 3.71811701092219e-06,
+      "loss": 0.7916,
+      "step": 179
+    },
+    {
+      "epoch": 0.46601941747572817,
+      "grad_norm": 1.8522348403930664,
+      "learning_rate": 3.376388529782215e-06,
+      "loss": 0.7913,
+      "step": 180
+    },
+    {
+      "epoch": 0.4686084142394822,
+      "grad_norm": 1.9595167636871338,
+      "learning_rate": 3.0505819692471792e-06,
+      "loss": 0.7881,
+      "step": 181
+    },
+    {
+      "epoch": 0.47119741100323626,
+      "grad_norm": 2.242990493774414,
+      "learning_rate": 2.7408085919590264e-06,
+      "loss": 0.9085,
+      "step": 182
+    },
+    {
+      "epoch": 0.47378640776699027,
+      "grad_norm": 2.380833625793457,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.883,
+      "step": 183
+    },
+    {
+      "epoch": 0.47637540453074434,
+      "grad_norm": 2.463675022125244,
+      "learning_rate": 2.1697790249779636e-06,
+      "loss": 0.8586,
+      "step": 184
+    },
+    {
+      "epoch": 0.47896440129449835,
+      "grad_norm": 3.089585304260254,
+      "learning_rate": 1.908717841359048e-06,
+      "loss": 0.9745,
+      "step": 185
+    },
+    {
+      "epoch": 0.4815533980582524,
+      "grad_norm": 3.7443113327026367,
+      "learning_rate": 1.6640797865406288e-06,
+      "loss": 1.0367,
+      "step": 186
+    },
+    {
+      "epoch": 0.4841423948220065,
+      "grad_norm": 4.425037860870361,
+      "learning_rate": 1.4359484041943038e-06,
+      "loss": 1.0985,
+      "step": 187
+    },
+    {
+      "epoch": 0.4867313915857605,
+      "grad_norm": 3.4299700260162354,
+      "learning_rate": 1.2244016009781701e-06,
+      "loss": 0.9096,
+      "step": 188
+    },
+    {
+      "epoch": 0.4893203883495146,
+      "grad_norm": 1.3923226594924927,
+      "learning_rate": 1.0295116199317057e-06,
+      "loss": 0.6823,
+      "step": 189
+    },
+    {
+      "epoch": 0.4919093851132686,
+      "grad_norm": 1.570144772529602,
+      "learning_rate": 8.513450158049108e-07,
+      "loss": 0.7374,
+      "step": 190
+    },
+    {
+      "epoch": 0.49449838187702266,
+      "grad_norm": 1.7391892671585083,
+      "learning_rate": 6.899626323298713e-07,
+      "loss": 0.8171,
+      "step": 191
+    },
+    {
+      "epoch": 0.4970873786407767,
+      "grad_norm": 1.8321576118469238,
+      "learning_rate": 5.454195814427021e-07,
+      "loss": 0.807,
+      "step": 192
+    },
+    {
+      "epoch": 0.49967637540453075,
+      "grad_norm": 1.9245028495788574,
+      "learning_rate": 4.177652244628627e-07,
+      "loss": 0.774,
+      "step": 193
+    },
+    {
+      "epoch": 0.5022653721682848,
+      "grad_norm": 2.206279754638672,
+      "learning_rate": 3.0704315523631953e-07,
+      "loss": 0.8755,
+      "step": 194
+    },
+    {
+      "epoch": 0.5048543689320388,
+      "grad_norm": 2.2507548332214355,
+      "learning_rate": 2.1329118524827662e-07,
+      "loss": 0.8724,
+      "step": 195
+    },
+    {
+      "epoch": 0.5074433656957928,
+      "grad_norm": 2.3572773933410645,
+      "learning_rate": 1.3654133071059893e-07,
+      "loss": 0.9072,
+      "step": 196
+    },
+    {
+      "epoch": 0.510032362459547,
+      "grad_norm": 2.630845785140991,
+      "learning_rate": 7.681980162830282e-08,
+      "loss": 0.8965,
+      "step": 197
+    },
+    {
+      "epoch": 0.512621359223301,
+      "grad_norm": 3.3030409812927246,
+      "learning_rate": 3.4146992848854695e-08,
+      "loss": 0.9997,
+      "step": 198
+    },
+    {
+      "epoch": 0.515210355987055,
+      "grad_norm": 4.137526988983154,
+      "learning_rate": 8.537477097364522e-09,
+      "loss": 1.0538,
+      "step": 199
+    },
+    {
+      "epoch": 0.517799352750809,
+      "grad_norm": 5.67355489730835,
+      "learning_rate": 0.0,
+      "loss": 1.1843,
+      "step": 200
+    },
+    {
+      "epoch": 0.517799352750809,
+      "eval_loss": 0.22498248517513275,
+      "eval_runtime": 64.2833,
+      "eval_samples_per_second": 40.493,
+      "eval_steps_per_second": 5.071,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.1605406885431214e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null