Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06ce627cdf978313cef135b956261249dacd1bd1df2c373f6ad783346e0af483
 size 156926880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0220fc1d90ea8fc616a75a349e3a3de3f88c807fd95fbaeb193fce07d25ce28e
 size 156926880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18d9fdddc307660017992a02560363ce71fd150bf9e6b4a56622008485a71007
 size 79968772

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf8aa25bcfa9e3a2765287904893589e75a733b33907eb0862824d2de06ddf0b
 size 79968772

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a2b134c170c3861762b86730d8fb738bec4fdfede8e45ec8de681871bebc097
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cda862f419774a7c8b4ce1fb67a9fbe630bd62f435694c988f3646fa0602c1e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:606e244bd4e377995f514a9afd58b985a53e5ab6166ef4b49183e16b2f949d47
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e60969e1684cc952ca893a4a3214ee3106c2aedea456babc2aab138cf120dc6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6099563241004944,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 1.6618257261410787,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 28.342,
       "eval_steps_per_second": 7.12,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.94731890081792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4097523093223572,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 2.078838174273859,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.342,
       "eval_steps_per_second": 7.12,
       "step": 200
+    },
+    {
+      "epoch": 1.6701244813278007,
+      "grad_norm": 7.207304954528809,
+      "learning_rate": 4.308566424176336e-05,
+      "loss": 0.5757,
+      "step": 201
+    },
+    {
+      "epoch": 1.6784232365145229,
+      "grad_norm": 8.592957496643066,
+      "learning_rate": 4.264272645841419e-05,
+      "loss": 0.487,
+      "step": 202
+    },
+    {
+      "epoch": 1.6867219917012448,
+      "grad_norm": 4.523548603057861,
+      "learning_rate": 4.2200378060659116e-05,
+      "loss": 0.1985,
+      "step": 203
+    },
+    {
+      "epoch": 1.6950207468879668,
+      "grad_norm": 3.577657699584961,
+      "learning_rate": 4.1758654484692186e-05,
+      "loss": 0.217,
+      "step": 204
+    },
+    {
+      "epoch": 1.703319502074689,
+      "grad_norm": 5.221662998199463,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.3242,
+      "step": 205
+    },
+    {
+      "epoch": 1.711618257261411,
+      "grad_norm": 4.403975009918213,
+      "learning_rate": 4.087722328979438e-05,
+      "loss": 0.2363,
+      "step": 206
+    },
+    {
+      "epoch": 1.7199170124481329,
+      "grad_norm": 4.955993175506592,
+      "learning_rate": 4.043758628164688e-05,
+      "loss": 0.4589,
+      "step": 207
+    },
+    {
+      "epoch": 1.7282157676348548,
+      "grad_norm": 5.290609836578369,
+      "learning_rate": 3.9998715311197785e-05,
+      "loss": 0.304,
+      "step": 208
+    },
+    {
+      "epoch": 1.7365145228215768,
+      "grad_norm": 4.659958362579346,
+      "learning_rate": 3.956064553606708e-05,
+      "loss": 0.1433,
+      "step": 209
+    },
+    {
+      "epoch": 1.7448132780082988,
+      "grad_norm": 6.113132953643799,
+      "learning_rate": 3.912341204969164e-05,
+      "loss": 0.2607,
+      "step": 210
+    },
+    {
+      "epoch": 1.7531120331950207,
+      "grad_norm": 7.161942005157471,
+      "learning_rate": 3.86870498785139e-05,
+      "loss": 0.5274,
+      "step": 211
+    },
+    {
+      "epoch": 1.7614107883817427,
+      "grad_norm": 7.1513671875,
+      "learning_rate": 3.825159397917589e-05,
+      "loss": 0.4634,
+      "step": 212
+    },
+    {
+      "epoch": 1.7697095435684647,
+      "grad_norm": 5.32570219039917,
+      "learning_rate": 3.781707923571891e-05,
+      "loss": 0.1875,
+      "step": 213
+    },
+    {
+      "epoch": 1.7780082987551866,
+      "grad_norm": 4.187331199645996,
+      "learning_rate": 3.738354045678891e-05,
+      "loss": 0.1516,
+      "step": 214
+    },
+    {
+      "epoch": 1.7863070539419086,
+      "grad_norm": 7.296047687530518,
+      "learning_rate": 3.695101237284815e-05,
+      "loss": 0.3847,
+      "step": 215
+    },
+    {
+      "epoch": 1.7946058091286305,
+      "grad_norm": 5.951739311218262,
+      "learning_rate": 3.651952963339282e-05,
+      "loss": 0.2656,
+      "step": 216
+    },
+    {
+      "epoch": 1.8029045643153527,
+      "grad_norm": 6.873353958129883,
+      "learning_rate": 3.608912680417737e-05,
+      "loss": 0.165,
+      "step": 217
+    },
+    {
+      "epoch": 1.8112033195020747,
+      "grad_norm": 6.497419834136963,
+      "learning_rate": 3.5659838364445505e-05,
+      "loss": 0.2504,
+      "step": 218
+    },
+    {
+      "epoch": 1.8195020746887967,
+      "grad_norm": 7.605969429016113,
+      "learning_rate": 3.523169870416795e-05,
+      "loss": 0.3794,
+      "step": 219
+    },
+    {
+      "epoch": 1.8278008298755186,
+      "grad_norm": 7.117875576019287,
+      "learning_rate": 3.480474212128766e-05,
+      "loss": 0.3687,
+      "step": 220
+    },
+    {
+      "epoch": 1.8360995850622408,
+      "grad_norm": 4.442015647888184,
+      "learning_rate": 3.4379002818972124e-05,
+      "loss": 0.2042,
+      "step": 221
+    },
+    {
+      "epoch": 1.8443983402489628,
+      "grad_norm": 8.238639831542969,
+      "learning_rate": 3.3954514902873425e-05,
+      "loss": 0.5648,
+      "step": 222
+    },
+    {
+      "epoch": 1.8526970954356847,
+      "grad_norm": 7.620614051818848,
+      "learning_rate": 3.3531312378396026e-05,
+      "loss": 0.3973,
+      "step": 223
+    },
+    {
+      "epoch": 1.8609958506224067,
+      "grad_norm": 5.214080333709717,
+      "learning_rate": 3.310942914797265e-05,
+      "loss": 0.2133,
+      "step": 224
+    },
+    {
+      "epoch": 1.8692946058091287,
+      "grad_norm": 5.911538600921631,
+      "learning_rate": 3.2688899008348386e-05,
+      "loss": 0.219,
+      "step": 225
+    },
+    {
+      "epoch": 1.8775933609958506,
+      "grad_norm": 10.658268928527832,
+      "learning_rate": 3.226975564787322e-05,
+      "loss": 0.338,
+      "step": 226
+    },
+    {
+      "epoch": 1.8858921161825726,
+      "grad_norm": 6.180187702178955,
+      "learning_rate": 3.185203264380338e-05,
+      "loss": 0.2234,
+      "step": 227
+    },
+    {
+      "epoch": 1.8941908713692945,
+      "grad_norm": 5.702350616455078,
+      "learning_rate": 3.143576345961132e-05,
+      "loss": 0.2215,
+      "step": 228
+    },
+    {
+      "epoch": 1.9024896265560165,
+      "grad_norm": 2.7787413597106934,
+      "learning_rate": 3.1020981442305184e-05,
+      "loss": 0.0856,
+      "step": 229
+    },
+    {
+      "epoch": 1.9107883817427385,
+      "grad_norm": 5.721746921539307,
+      "learning_rate": 3.060771981975726e-05,
+      "loss": 0.3339,
+      "step": 230
+    },
+    {
+      "epoch": 1.9190871369294604,
+      "grad_norm": 6.0323567390441895,
+      "learning_rate": 3.019601169804216e-05,
+      "loss": 0.1757,
+      "step": 231
+    },
+    {
+      "epoch": 1.9273858921161826,
+      "grad_norm": 8.973467826843262,
+      "learning_rate": 2.978589005878476e-05,
+      "loss": 0.262,
+      "step": 232
+    },
+    {
+      "epoch": 1.9356846473029046,
+      "grad_norm": 3.4507062435150146,
+      "learning_rate": 2.9377387756517982e-05,
+      "loss": 0.1235,
+      "step": 233
+    },
+    {
+      "epoch": 1.9439834024896265,
+      "grad_norm": 5.919799327850342,
+      "learning_rate": 2.897053751605093e-05,
+      "loss": 0.2862,
+      "step": 234
+    },
+    {
+      "epoch": 1.9522821576763485,
+      "grad_norm": 4.9692487716674805,
+      "learning_rate": 2.8565371929847284e-05,
+      "loss": 0.1764,
+      "step": 235
+    },
+    {
+      "epoch": 1.9605809128630707,
+      "grad_norm": 5.740837574005127,
+      "learning_rate": 2.8161923455414367e-05,
+      "loss": 0.1705,
+      "step": 236
+    },
+    {
+      "epoch": 1.9688796680497926,
+      "grad_norm": 5.595933437347412,
+      "learning_rate": 2.776022441270295e-05,
+      "loss": 0.2613,
+      "step": 237
+    },
+    {
+      "epoch": 1.9771784232365146,
+      "grad_norm": 4.591209888458252,
+      "learning_rate": 2.7360306981518146e-05,
+      "loss": 0.1906,
+      "step": 238
+    },
+    {
+      "epoch": 1.9854771784232366,
+      "grad_norm": 7.699284553527832,
+      "learning_rate": 2.6962203198941587e-05,
+      "loss": 0.4312,
+      "step": 239
+    },
+    {
+      "epoch": 1.9937759336099585,
+      "grad_norm": 6.995236873626709,
+      "learning_rate": 2.656594495676482e-05,
+      "loss": 0.3351,
+      "step": 240
+    },
+    {
+      "epoch": 2.004149377593361,
+      "grad_norm": 6.956718921661377,
+      "learning_rate": 2.6171563998934605e-05,
+      "loss": 0.2213,
+      "step": 241
+    },
+    {
+      "epoch": 2.012448132780083,
+      "grad_norm": 3.839200258255005,
+      "learning_rate": 2.5779091919009877e-05,
+      "loss": 0.2139,
+      "step": 242
+    },
+    {
+      "epoch": 2.020746887966805,
+      "grad_norm": 1.65491783618927,
+      "learning_rate": 2.5388560157630765e-05,
+      "loss": 0.0616,
+      "step": 243
+    },
+    {
+      "epoch": 2.029045643153527,
+      "grad_norm": 3.041247606277466,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0922,
+      "step": 244
+    },
+    {
+      "epoch": 2.037344398340249,
+      "grad_norm": 1.837149739265442,
+      "learning_rate": 2.461344257337662e-05,
+      "loss": 0.0552,
+      "step": 245
+    },
+    {
+      "epoch": 2.045643153526971,
+      "grad_norm": 3.2361204624176025,
+      "learning_rate": 2.422891884458241e-05,
+      "loss": 0.0536,
+      "step": 246
+    },
+    {
+      "epoch": 2.0539419087136928,
+      "grad_norm": 4.026633262634277,
+      "learning_rate": 2.3846459617521128e-05,
+      "loss": 0.2692,
+      "step": 247
+    },
+    {
+      "epoch": 2.0622406639004147,
+      "grad_norm": 3.3415215015411377,
+      "learning_rate": 2.346609553071093e-05,
+      "loss": 0.0902,
+      "step": 248
+    },
+    {
+      "epoch": 2.070539419087137,
+      "grad_norm": 0.9877287745475769,
+      "learning_rate": 2.308785705482982e-05,
+      "loss": 0.0222,
+      "step": 249
+    },
+    {
+      "epoch": 2.078838174273859,
+      "grad_norm": 1.6253547668457031,
+      "learning_rate": 2.2711774490274766e-05,
+      "loss": 0.0311,
+      "step": 250
+    },
+    {
+      "epoch": 2.078838174273859,
+      "eval_loss": 0.4097523093223572,
+      "eval_runtime": 7.1697,
+      "eval_samples_per_second": 28.314,
+      "eval_steps_per_second": 7.113,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.9341486260224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null