Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5fff018d608856dcfcae33ced8e89dae34929c01117c095f9fea358961bc527
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:49ec199b5c98b48873360b6790b211a33ae3e9fd392389a01b4e6a8bc761109f
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b93f794b3de2cba0f30276b86552f3583035675cde2adb6b39b2501634372e8
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcc87b9121428faa450989724a959f52cf5e8dcd5ea46ff647e000bd90e6ac8b
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6d506c968b02b970d15f48bbb1c7e576d4778e8d3f04a673e834d8487b71419
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad7b75e73364c3cd9101bf05d417fd520f6d5501bee44305c4ca9026cb0e7817
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5335737b4b4d079cdec612fe6ee661ed4d29f9e0e55eb4eada44a9677240228
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4193588197231293,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.031560675398453523,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 11.097,
       "eval_steps_per_second": 5.548,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.942038949881446e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.40419265627861023,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.06312135079690705,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.097,
       "eval_steps_per_second": 5.548,
       "step": 50
+    },
+    {
+      "epoch": 0.0321918889064226,
+      "grad_norm": 1.4785792827606201,
+      "learning_rate": 9.285836503510562e-05,
+      "loss": 0.9662,
+      "step": 51
+    },
+    {
+      "epoch": 0.03282310241439167,
+      "grad_norm": 1.5581904649734497,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.4336,
+      "step": 52
+    },
+    {
+      "epoch": 0.03345431592236074,
+      "grad_norm": 1.3941839933395386,
+      "learning_rate": 9.193352839727121e-05,
+      "loss": 1.2795,
+      "step": 53
+    },
+    {
+      "epoch": 0.03408552943032981,
+      "grad_norm": 1.5098243951797485,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.5065,
+      "step": 54
+    },
+    {
+      "epoch": 0.03471674293829888,
+      "grad_norm": 1.6207574605941772,
+      "learning_rate": 9.09576022144496e-05,
+      "loss": 1.5554,
+      "step": 55
+    },
+    {
+      "epoch": 0.03534795644626795,
+      "grad_norm": 1.558283805847168,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.6396,
+      "step": 56
+    },
+    {
+      "epoch": 0.03597916995423702,
+      "grad_norm": 1.633166790008545,
+      "learning_rate": 8.993177550236464e-05,
+      "loss": 1.4533,
+      "step": 57
+    },
+    {
+      "epoch": 0.03661038346220609,
+      "grad_norm": 1.6480422019958496,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.6044,
+      "step": 58
+    },
+    {
+      "epoch": 0.037241596970175164,
+      "grad_norm": 1.5684033632278442,
+      "learning_rate": 8.885729807284856e-05,
+      "loss": 1.6098,
+      "step": 59
+    },
+    {
+      "epoch": 0.03787281047814423,
+      "grad_norm": 1.6380794048309326,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.7237,
+      "step": 60
+    },
+    {
+      "epoch": 0.0385040239861133,
+      "grad_norm": 1.626305103302002,
+      "learning_rate": 8.773547901113862e-05,
+      "loss": 1.6403,
+      "step": 61
+    },
+    {
+      "epoch": 0.039135237494082376,
+      "grad_norm": 1.6016772985458374,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.6659,
+      "step": 62
+    },
+    {
+      "epoch": 0.039766451002051444,
+      "grad_norm": 1.6089552640914917,
+      "learning_rate": 8.656768508095853e-05,
+      "loss": 1.5893,
+      "step": 63
+    },
+    {
+      "epoch": 0.04039766451002051,
+      "grad_norm": 1.551110029220581,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.5991,
+      "step": 64
+    },
+    {
+      "epoch": 0.04102887801798959,
+      "grad_norm": 1.6614254713058472,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 1.6066,
+      "step": 65
+    },
+    {
+      "epoch": 0.041660091525958655,
+      "grad_norm": 1.6592720746994019,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.78,
+      "step": 66
+    },
+    {
+      "epoch": 0.04229130503392772,
+      "grad_norm": 1.694076418876648,
+      "learning_rate": 8.409991800312493e-05,
+      "loss": 1.7028,
+      "step": 67
+    },
+    {
+      "epoch": 0.0429225185418968,
+      "grad_norm": 1.687516689300537,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.6425,
+      "step": 68
+    },
+    {
+      "epoch": 0.043553732049865866,
+      "grad_norm": 1.8176817893981934,
+      "learning_rate": 8.280295144952536e-05,
+      "loss": 1.7688,
+      "step": 69
+    },
+    {
+      "epoch": 0.044184945557834934,
+      "grad_norm": 1.764524221420288,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.7655,
+      "step": 70
+    },
+    {
+      "epoch": 0.04481615906580401,
+      "grad_norm": 1.7133554220199585,
+      "learning_rate": 8.146601955249188e-05,
+      "loss": 1.7212,
+      "step": 71
+    },
+    {
+      "epoch": 0.04544737257377308,
+      "grad_norm": 1.6277440786361694,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.5719,
+      "step": 72
+    },
+    {
+      "epoch": 0.04607858608174215,
+      "grad_norm": 1.6812453269958496,
+      "learning_rate": 8.009075115760243e-05,
+      "loss": 1.8084,
+      "step": 73
+    },
+    {
+      "epoch": 0.04670979958971122,
+      "grad_norm": 1.72732412815094,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.7182,
+      "step": 74
+    },
+    {
+      "epoch": 0.04734101309768029,
+      "grad_norm": 1.7740263938903809,
+      "learning_rate": 7.86788218175523e-05,
+      "loss": 1.7463,
+      "step": 75
+    },
+    {
+      "epoch": 0.047972226605649364,
+      "grad_norm": 1.6268154382705688,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.511,
+      "step": 76
+    },
+    {
+      "epoch": 0.04860344011361843,
+      "grad_norm": 1.5691125392913818,
+      "learning_rate": 7.723195175075136e-05,
+      "loss": 1.7255,
+      "step": 77
+    },
+    {
+      "epoch": 0.0492346536215875,
+      "grad_norm": 1.7060211896896362,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.7701,
+      "step": 78
+    },
+    {
+      "epoch": 0.049865867129556575,
+      "grad_norm": 1.7170287370681763,
+      "learning_rate": 7.575190374550272e-05,
+      "loss": 1.8898,
+      "step": 79
+    },
+    {
+      "epoch": 0.05049708063752564,
+      "grad_norm": 1.6707334518432617,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.6891,
+      "step": 80
+    },
+    {
+      "epoch": 0.05112829414549471,
+      "grad_norm": 1.708794116973877,
+      "learning_rate": 7.424048101231686e-05,
+      "loss": 1.5987,
+      "step": 81
+    },
+    {
+      "epoch": 0.051759507653463786,
+      "grad_norm": 1.7319235801696777,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.5944,
+      "step": 82
+    },
+    {
+      "epoch": 0.052390721161432854,
+      "grad_norm": 1.7364600896835327,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 1.686,
+      "step": 83
+    },
+    {
+      "epoch": 0.05302193466940192,
+      "grad_norm": 1.8175327777862549,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.6516,
+      "step": 84
+    },
+    {
+      "epoch": 0.053653148177371,
+      "grad_norm": 1.837198257446289,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 1.6562,
+      "step": 85
+    },
+    {
+      "epoch": 0.054284361685340066,
+      "grad_norm": 1.8270783424377441,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.8419,
+      "step": 86
+    },
+    {
+      "epoch": 0.054915575193309134,
+      "grad_norm": 1.8131033182144165,
+      "learning_rate": 6.953655642446368e-05,
+      "loss": 1.5259,
+      "step": 87
+    },
+    {
+      "epoch": 0.05554678870127821,
+      "grad_norm": 1.8537405729293823,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.8515,
+      "step": 88
+    },
+    {
+      "epoch": 0.05617800220924728,
+      "grad_norm": 1.7982525825500488,
+      "learning_rate": 6.7918397477265e-05,
+      "loss": 1.7434,
+      "step": 89
+    },
+    {
+      "epoch": 0.056809215717216345,
+      "grad_norm": 1.9493149518966675,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.7293,
+      "step": 90
+    },
+    {
+      "epoch": 0.05744042922518542,
+      "grad_norm": 1.804345726966858,
+      "learning_rate": 6.627840772285784e-05,
+      "loss": 1.5746,
+      "step": 91
+    },
+    {
+      "epoch": 0.05807164273315449,
+      "grad_norm": 1.8308101892471313,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.4938,
+      "step": 92
+    },
+    {
+      "epoch": 0.05870285624112356,
+      "grad_norm": 1.9381098747253418,
+      "learning_rate": 6.461858523613684e-05,
+      "loss": 1.662,
+      "step": 93
+    },
+    {
+      "epoch": 0.05933406974909263,
+      "grad_norm": 1.9891799688339233,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.5954,
+      "step": 94
+    },
+    {
+      "epoch": 0.0599652832570617,
+      "grad_norm": 1.9715620279312134,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 1.3628,
+      "step": 95
+    },
+    {
+      "epoch": 0.060596496765030775,
+      "grad_norm": 2.135878562927246,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.658,
+      "step": 96
+    },
+    {
+      "epoch": 0.06122771027299984,
+      "grad_norm": 1.9819763898849487,
+      "learning_rate": 6.124755271719325e-05,
+      "loss": 1.4918,
+      "step": 97
+    },
+    {
+      "epoch": 0.06185892378096891,
+      "grad_norm": 2.1434459686279297,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.614,
+      "step": 98
+    },
+    {
+      "epoch": 0.062490137288937986,
+      "grad_norm": 2.191251516342163,
+      "learning_rate": 5.9540449768827246e-05,
+      "loss": 1.4206,
+      "step": 99
+    },
+    {
+      "epoch": 0.06312135079690705,
+      "grad_norm": 2.3877665996551514,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.2033,
+      "step": 100
+    },
+    {
+      "epoch": 0.06312135079690705,
+      "eval_loss": 0.40419265627861023,
+      "eval_runtime": 240.7348,
+      "eval_samples_per_second": 11.083,
+      "eval_steps_per_second": 5.541,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.5919852849987584e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null