Training in progress, step 250, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa6a5dd07b72ef9430ace44e750fcdb4b7759bb0894a8b53a989328b0f60392
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba114e5f887ed6bee28791b1206325155477c2e5560fb5a0fa2445b9a14ab670
 size 147770496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee8d3047990aa86dc0a36c1ef1cd2bb44cd433c10bb8c7e8d5f0f851a8fd47e6
 size 295765866

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a6eae1f8a74cb4e2ecfce996fe78d7c29b0d277b81ad12a68deb43452a9e39
 size 295765866

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e26f5521fc1e6154bc9e3b1f3aa7674a376b8de111db48b8d3988bf77187f582
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4da830074bb329feb347ddaab079f26d40e80efce113e07a9d3f4f756cfd5bbb
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd15b1b91b4e9d24520dd50941a3a4e7796b5305fbac3c66fe134a0d0a7ca684
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:efeca56ff129fd1938154764e5eedeecbd5777ae5c87bc82a516810d01093718
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8ec05176df7a0c2aa9818822dcf5a3c91459baab3140e17c9bffba86c07f82f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c859c36874bfac59ee5311bb46d04057167ce59e38d261dd16a448e0837fdf72
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f70ac3e835d56a709928da1914610ebaf09c78697ec6a3898b27108602ce80de
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca7fcff078dbdb0c1c6efcaf72bc4a9140c10cda16434ba2611620408aff6078
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78f280e0e658edbdc4fcfbaf05da6eb84d8d86c74ef9e6edc7763096efc3a439
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e6892bef9374493ad62f6ec1fe71e66e2ecb6a2a8c48a6591b2eb5cb1debcb4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.1887668371200562,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 1.7218186709712133,
   "eval_steps": 25,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1479,6 +1479,372 @@
       "eval_samples_per_second": 39.253,
       "eval_steps_per_second": 10.206,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1493,7 +1859,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -1502,12 +1868,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.248409672001782e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.1887668371200562,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 2.1522733387140165,
   "eval_steps": 25,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.253,
       "eval_steps_per_second": 10.206,
       "step": 200
+    },
+    {
+      "epoch": 1.7304277643260693,
+      "grad_norm": 0.7049666047096252,
+      "learning_rate": 6.854023410237687e-05,
+      "loss": 0.8616,
+      "step": 201
+    },
+    {
+      "epoch": 1.7390368576809254,
+      "grad_norm": 0.7968461513519287,
+      "learning_rate": 6.8234871662076e-05,
+      "loss": 1.0514,
+      "step": 202
+    },
+    {
+      "epoch": 1.7476459510357816,
+      "grad_norm": 1.1434416770935059,
+      "learning_rate": 6.792884061139813e-05,
+      "loss": 0.8036,
+      "step": 203
+    },
+    {
+      "epoch": 1.7562550443906377,
+      "grad_norm": 1.7658017873764038,
+      "learning_rate": 6.762215641067727e-05,
+      "loss": 1.4673,
+      "step": 204
+    },
+    {
+      "epoch": 1.7648641377454937,
+      "grad_norm": 1.5402103662490845,
+      "learning_rate": 6.731483455324374e-05,
+      "loss": 1.3059,
+      "step": 205
+    },
+    {
+      "epoch": 1.7734732311003496,
+      "grad_norm": 1.1886134147644043,
+      "learning_rate": 6.700689056464162e-05,
+      "loss": 1.1953,
+      "step": 206
+    },
+    {
+      "epoch": 1.7820823244552058,
+      "grad_norm": 0.7550622224807739,
+      "learning_rate": 6.66983400018443e-05,
+      "loss": 1.0902,
+      "step": 207
+    },
+    {
+      "epoch": 1.790691417810062,
+      "grad_norm": 0.6886234283447266,
+      "learning_rate": 6.638919845246859e-05,
+      "loss": 1.019,
+      "step": 208
+    },
+    {
+      "epoch": 1.799300511164918,
+      "grad_norm": 0.8987452387809753,
+      "learning_rate": 6.607948153398726e-05,
+      "loss": 0.9793,
+      "step": 209
+    },
+    {
+      "epoch": 1.807909604519774,
+      "grad_norm": 1.0460529327392578,
+      "learning_rate": 6.576920489294011e-05,
+      "loss": 0.9404,
+      "step": 210
+    },
+    {
+      "epoch": 1.81651869787463,
+      "grad_norm": 1.1776190996170044,
+      "learning_rate": 6.545838420414338e-05,
+      "loss": 0.8875,
+      "step": 211
+    },
+    {
+      "epoch": 1.825127791229486,
+      "grad_norm": 1.31589674949646,
+      "learning_rate": 6.514703516989805e-05,
+      "loss": 0.9621,
+      "step": 212
+    },
+    {
+      "epoch": 1.8337368845843423,
+      "grad_norm": 1.11146879196167,
+      "learning_rate": 6.483517351919646e-05,
+      "loss": 0.8761,
+      "step": 213
+    },
+    {
+      "epoch": 1.8423459779391984,
+      "grad_norm": 0.8180311918258667,
+      "learning_rate": 6.452281500692775e-05,
+      "loss": 0.9426,
+      "step": 214
+    },
+    {
+      "epoch": 1.8509550712940543,
+      "grad_norm": 0.7222698330879211,
+      "learning_rate": 6.420997541308195e-05,
+      "loss": 0.625,
+      "step": 215
+    },
+    {
+      "epoch": 1.8595641646489103,
+      "grad_norm": 1.14591646194458,
+      "learning_rate": 6.389667054195275e-05,
+      "loss": 1.1073,
+      "step": 216
+    },
+    {
+      "epoch": 1.8681732580037664,
+      "grad_norm": 1.1335718631744385,
+      "learning_rate": 6.358291622133912e-05,
+      "loss": 1.2874,
+      "step": 217
+    },
+    {
+      "epoch": 1.8767823513586226,
+      "grad_norm": 0.9186055064201355,
+      "learning_rate": 6.326872830174567e-05,
+      "loss": 1.1502,
+      "step": 218
+    },
+    {
+      "epoch": 1.8853914447134787,
+      "grad_norm": 0.942480206489563,
+      "learning_rate": 6.295412265558197e-05,
+      "loss": 1.1254,
+      "step": 219
+    },
+    {
+      "epoch": 1.8940005380683347,
+      "grad_norm": 0.8674805760383606,
+      "learning_rate": 6.263911517636063e-05,
+      "loss": 1.103,
+      "step": 220
+    },
+    {
+      "epoch": 1.9026096314231906,
+      "grad_norm": 0.8475675582885742,
+      "learning_rate": 6.232372177789439e-05,
+      "loss": 1.0278,
+      "step": 221
+    },
+    {
+      "epoch": 1.9112187247780468,
+      "grad_norm": 0.7307541966438293,
+      "learning_rate": 6.200795839349223e-05,
+      "loss": 0.9875,
+      "step": 222
+    },
+    {
+      "epoch": 1.919827818132903,
+      "grad_norm": 0.7373369336128235,
+      "learning_rate": 6.169184097515432e-05,
+      "loss": 1.0035,
+      "step": 223
+    },
+    {
+      "epoch": 1.928436911487759,
+      "grad_norm": 0.6376901865005493,
+      "learning_rate": 6.137538549276629e-05,
+      "loss": 0.7809,
+      "step": 224
+    },
+    {
+      "epoch": 1.937046004842615,
+      "grad_norm": 0.6437143087387085,
+      "learning_rate": 6.105860793329227e-05,
+      "loss": 0.8046,
+      "step": 225
+    },
+    {
+      "epoch": 1.937046004842615,
+      "eval_loss": 1.1572624444961548,
+      "eval_runtime": 1.2769,
+      "eval_samples_per_second": 39.158,
+      "eval_steps_per_second": 10.181,
+      "step": 225
+    },
+    {
+      "epoch": 1.945655098197471,
+      "grad_norm": 0.9029556512832642,
+      "learning_rate": 6.074152429996749e-05,
+      "loss": 0.9927,
+      "step": 226
+    },
+    {
+      "epoch": 1.9542641915523271,
+      "grad_norm": 0.8548585772514343,
+      "learning_rate": 6.042415061148954e-05,
+      "loss": 1.0187,
+      "step": 227
+    },
+    {
+      "epoch": 1.9628732849071833,
+      "grad_norm": 0.9854429960250854,
+      "learning_rate": 6.010650290120936e-05,
+      "loss": 0.8351,
+      "step": 228
+    },
+    {
+      "epoch": 1.9714823782620394,
+      "grad_norm": 1.5009618997573853,
+      "learning_rate": 5.978859721632112e-05,
+      "loss": 1.4645,
+      "step": 229
+    },
+    {
+      "epoch": 1.9800914716168954,
+      "grad_norm": 0.9327002763748169,
+      "learning_rate": 5.947044961705153e-05,
+      "loss": 1.0599,
+      "step": 230
+    },
+    {
+      "epoch": 1.9887005649717513,
+      "grad_norm": 0.6681526899337769,
+      "learning_rate": 5.9152076175848594e-05,
+      "loss": 0.9357,
+      "step": 231
+    },
+    {
+      "epoch": 1.9973096583266075,
+      "grad_norm": 0.8246638178825378,
+      "learning_rate": 5.883349297656956e-05,
+      "loss": 0.9124,
+      "step": 232
+    },
+    {
+      "epoch": 2.0059187516814636,
+      "grad_norm": 0.8793002963066101,
+      "learning_rate": 5.851471611366842e-05,
+      "loss": 1.1954,
+      "step": 233
+    },
+    {
+      "epoch": 2.0145278450363198,
+      "grad_norm": 0.7132886052131653,
+      "learning_rate": 5.81957616913828e-05,
+      "loss": 1.0198,
+      "step": 234
+    },
+    {
+      "epoch": 2.0231369383911755,
+      "grad_norm": 0.7113811373710632,
+      "learning_rate": 5.7876645822920464e-05,
+      "loss": 0.9339,
+      "step": 235
+    },
+    {
+      "epoch": 2.0317460317460316,
+      "grad_norm": 0.6471757888793945,
+      "learning_rate": 5.75573846296452e-05,
+      "loss": 0.9608,
+      "step": 236
+    },
+    {
+      "epoch": 2.040355125100888,
+      "grad_norm": 0.7370480298995972,
+      "learning_rate": 5.7237994240262515e-05,
+      "loss": 0.9259,
+      "step": 237
+    },
+    {
+      "epoch": 2.048964218455744,
+      "grad_norm": 0.7430047392845154,
+      "learning_rate": 5.691849079000465e-05,
+      "loss": 0.8468,
+      "step": 238
+    },
+    {
+      "epoch": 2.0575733118106,
+      "grad_norm": 0.6476728320121765,
+      "learning_rate": 5.659889041981564e-05,
+      "loss": 0.7466,
+      "step": 239
+    },
+    {
+      "epoch": 2.066182405165456,
+      "grad_norm": 1.0301920175552368,
+      "learning_rate": 5.627920927553575e-05,
+      "loss": 0.8599,
+      "step": 240
+    },
+    {
+      "epoch": 2.074791498520312,
+      "grad_norm": 0.6990707516670227,
+      "learning_rate": 5.5959463507085866e-05,
+      "loss": 0.6485,
+      "step": 241
+    },
+    {
+      "epoch": 2.083400591875168,
+      "grad_norm": 0.6740060448646545,
+      "learning_rate": 5.563966926765163e-05,
+      "loss": 0.6521,
+      "step": 242
+    },
+    {
+      "epoch": 2.0920096852300243,
+      "grad_norm": 0.7777407765388489,
+      "learning_rate": 5.53198427128674e-05,
+      "loss": 0.8288,
+      "step": 243
+    },
+    {
+      "epoch": 2.1006187785848804,
+      "grad_norm": 0.7086468935012817,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.6116,
+      "step": 244
+    },
+    {
+      "epoch": 2.109227871939736,
+      "grad_norm": 1.1495126485824585,
+      "learning_rate": 5.468015728713262e-05,
+      "loss": 1.2629,
+      "step": 245
+    },
+    {
+      "epoch": 2.1178369652945923,
+      "grad_norm": 1.1655594110488892,
+      "learning_rate": 5.4360330732348377e-05,
+      "loss": 1.1571,
+      "step": 246
+    },
+    {
+      "epoch": 2.1264460586494485,
+      "grad_norm": 1.0574018955230713,
+      "learning_rate": 5.404053649291415e-05,
+      "loss": 1.0127,
+      "step": 247
+    },
+    {
+      "epoch": 2.1350551520043046,
+      "grad_norm": 0.8099690675735474,
+      "learning_rate": 5.372079072446427e-05,
+      "loss": 0.9191,
+      "step": 248
+    },
+    {
+      "epoch": 2.143664245359161,
+      "grad_norm": 0.7748256325721741,
+      "learning_rate": 5.340110958018438e-05,
+      "loss": 0.86,
+      "step": 249
+    },
+    {
+      "epoch": 2.1522733387140165,
+      "grad_norm": 1.3335024118423462,
+      "learning_rate": 5.308150920999537e-05,
+      "loss": 0.9134,
+      "step": 250
+    },
+    {
+      "epoch": 2.1522733387140165,
+      "eval_loss": 1.1941081285476685,
+      "eval_runtime": 1.2717,
+      "eval_samples_per_second": 39.316,
+      "eval_steps_per_second": 10.222,
+      "step": 250
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.3114226274310554e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null