Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f54e0e25265f97913cc64efc2144e9abbc8a98b9b3ea5e4e4faebf9b5482932
 size 34456

 version https://git-lfs.github.com/spec/v1
+oid sha256:4887e379d4989d014581fc20f809e19727cafb81988924c1a52e7a25cef9e94d
 size 34456

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57f4916e6c6caec0662acbe6d2bbad4f5e3b44a49432b2f78a0330327aaacc28
 size 76154

 version https://git-lfs.github.com/spec/v1
+oid sha256:01e80db67cec52db3451da754945eaa1d203cc2645f67506ddaf0c4e0c462429
 size 76154

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cc7823737469c9386415ce2e8d246e79e808f0f34025b7aaf1b0e4cddddf07b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1c95cee829f7759fa45f223020a9f4c6eeeb34e3d5deec91d83ec6e9b47e25a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5335737b4b4d079cdec612fe6ee661ed4d29f9e0e55eb4eada44a9677240228
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.016886187098953058,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 130.875,
       "eval_steps_per_second": 65.451,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -387,7 +745,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 11335858126848.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 11.5,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.033772374197906116,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 130.875,
       "eval_steps_per_second": 65.451,
       "step": 50
+    },
+    {
+      "epoch": 0.017223910840932118,
+      "grad_norm": 0.0004388255765661597,
+      "learning_rate": 9.285836503510562e-05,
+      "loss": 46.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.017561634582911177,
+      "grad_norm": 0.00034231445170007646,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 46.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.01789935832489024,
+      "grad_norm": 0.00040279701352119446,
+      "learning_rate": 9.193352839727121e-05,
+      "loss": 46.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.0182370820668693,
+      "grad_norm": 0.00048692570999264717,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 46.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.018574805808848363,
+      "grad_norm": 0.0004796187567990273,
+      "learning_rate": 9.09576022144496e-05,
+      "loss": 46.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.018912529550827423,
+      "grad_norm": 0.0004256981483194977,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 46.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.019250253292806486,
+      "grad_norm": 0.0003702337562572211,
+      "learning_rate": 8.993177550236464e-05,
+      "loss": 46.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.019587977034785545,
+      "grad_norm": 0.00028856948483735323,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 46.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.019925700776764605,
+      "grad_norm": 0.00043020248995162547,
+      "learning_rate": 8.885729807284856e-05,
+      "loss": 46.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.020263424518743668,
+      "grad_norm": 0.00032656811526976526,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 46.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.020601148260722728,
+      "grad_norm": 0.00044006985262967646,
+      "learning_rate": 8.773547901113862e-05,
+      "loss": 46.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.02093887200270179,
+      "grad_norm": 0.0005264987121336162,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 46.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.02127659574468085,
+      "grad_norm": 0.0005930354818701744,
+      "learning_rate": 8.656768508095853e-05,
+      "loss": 46.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.021614319486659914,
+      "grad_norm": 0.0004631902265828103,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 46.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.021952043228638973,
+      "grad_norm": 0.0004996751667931676,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 46.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.022289766970618033,
+      "grad_norm": 0.0005587644409388304,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 46.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.022627490712597096,
+      "grad_norm": 0.0005852883914485574,
+      "learning_rate": 8.409991800312493e-05,
+      "loss": 46.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.022965214454576156,
+      "grad_norm": 0.0007204718422144651,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 46.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.02330293819655522,
+      "grad_norm": 0.0005952971987426281,
+      "learning_rate": 8.280295144952536e-05,
+      "loss": 46.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.02364066193853428,
+      "grad_norm": 0.0005659193848259747,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 46.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.02397838568051334,
+      "grad_norm": 0.0004821221227757633,
+      "learning_rate": 8.146601955249188e-05,
+      "loss": 46.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.0243161094224924,
+      "grad_norm": 0.00043129047844558954,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 46.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.02465383316447146,
+      "grad_norm": 0.0007432058919221163,
+      "learning_rate": 8.009075115760243e-05,
+      "loss": 46.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.024991556906450524,
+      "grad_norm": 0.0005778361228294671,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 46.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.025329280648429583,
+      "grad_norm": 0.0006119939498603344,
+      "learning_rate": 7.86788218175523e-05,
+      "loss": 46.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.025667004390408647,
+      "grad_norm": 0.0006990509573370218,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 46.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.026004728132387706,
+      "grad_norm": 0.000691780005581677,
+      "learning_rate": 7.723195175075136e-05,
+      "loss": 46.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.02634245187436677,
+      "grad_norm": 0.0007424818468280137,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 46.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.02668017561634583,
+      "grad_norm": 0.0009253322496078908,
+      "learning_rate": 7.575190374550272e-05,
+      "loss": 46.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.02701789935832489,
+      "grad_norm": 0.0006558927707374096,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 46.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.02735562310030395,
+      "grad_norm": 0.000801301037427038,
+      "learning_rate": 7.424048101231686e-05,
+      "loss": 46.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.02769334684228301,
+      "grad_norm": 0.0007340286974795163,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 46.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.028031070584262074,
+      "grad_norm": 0.0005543944425880909,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 46.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.028368794326241134,
+      "grad_norm": 0.0004185195139143616,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 46.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.028706518068220197,
+      "grad_norm": 0.0008723873761482537,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 46.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.029044241810199257,
+      "grad_norm": 0.0006252967286854982,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 46.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.029381965552178316,
+      "grad_norm": 0.0008132215589284897,
+      "learning_rate": 6.953655642446368e-05,
+      "loss": 46.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.02971968929415738,
+      "grad_norm": 0.0006520528695546091,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 46.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.03005741303613644,
+      "grad_norm": 0.0006046611815690994,
+      "learning_rate": 6.7918397477265e-05,
+      "loss": 46.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.030395136778115502,
+      "grad_norm": 0.0007351114763878286,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 46.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.030732860520094562,
+      "grad_norm": 0.0005443833651952446,
+      "learning_rate": 6.627840772285784e-05,
+      "loss": 46.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.031070584262073625,
+      "grad_norm": 0.0007517460617236793,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 46.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.031408308004052685,
+      "grad_norm": 0.0006298055523075163,
+      "learning_rate": 6.461858523613684e-05,
+      "loss": 46.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.031746031746031744,
+      "grad_norm": 0.0006449134671129286,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 46.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.032083755488010804,
+      "grad_norm": 0.0005613227258436382,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 46.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.03242147922998987,
+      "grad_norm": 0.0006533685373142362,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 46.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.03275920297196893,
+      "grad_norm": 0.000610053539276123,
+      "learning_rate": 6.124755271719325e-05,
+      "loss": 46.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.03309692671394799,
+      "grad_norm": 0.0006236035260371864,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 46.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.03343465045592705,
+      "grad_norm": 0.0006816457607783377,
+      "learning_rate": 5.9540449768827246e-05,
+      "loss": 46.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.033772374197906116,
+      "grad_norm": 0.0008262648480013013,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 46.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.033772374197906116,
+      "eval_loss": 11.5,
+      "eval_runtime": 38.395,
+      "eval_samples_per_second": 129.887,
+      "eval_steps_per_second": 64.956,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 22872706646016.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null