Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01978505775e75aa75ad77fe9c1686467c99e6603062cdbf08119b09c06b4d0d
 size 78207176

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e1033432107bb453250512855bb4417555fb261809e1513428bad2c18002473
 size 78207176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:949c2ff6b2d749bd4d72a02675491e754d1438c7ff1e393da730d0f0f3df8e33
 size 156656510

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5ae8dfb1b88d4dfc431b29329c34520fa281e9dfc7bbba64cf6fb35fc81f89b
 size 156656510

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4e5696617cb3185657b9b9114762baf127062e4b4345287d34431920aa2f8bc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf69b39deaf4ceca685dfbcc23736d2b58b7133cb9b3922c08857d6baece73ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.0112826824188232,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.008557980316645272,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 38.87,
       "eval_steps_per_second": 19.435,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1928297315303424.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.9608962535858154,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.017115960633290545,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 38.87,
       "eval_steps_per_second": 19.435,
       "step": 50
+    },
+    {
+      "epoch": 0.008729139922978177,
+      "grad_norm": 0.24028153717517853,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 1.8849,
+      "step": 51
+    },
+    {
+      "epoch": 0.008900299529311083,
+      "grad_norm": 0.2163541167974472,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 1.9064,
+      "step": 52
+    },
+    {
+      "epoch": 0.009071459135643988,
+      "grad_norm": 0.1897958517074585,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 1.962,
+      "step": 53
+    },
+    {
+      "epoch": 0.009242618741976894,
+      "grad_norm": 0.1701580286026001,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 1.8102,
+      "step": 54
+    },
+    {
+      "epoch": 0.009413778348309799,
+      "grad_norm": 0.17404377460479736,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 1.7162,
+      "step": 55
+    },
+    {
+      "epoch": 0.009584937954642705,
+      "grad_norm": 0.16066402196884155,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 1.7332,
+      "step": 56
+    },
+    {
+      "epoch": 0.00975609756097561,
+      "grad_norm": 0.15609973669052124,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 1.7929,
+      "step": 57
+    },
+    {
+      "epoch": 0.009927257167308514,
+      "grad_norm": 0.15920859575271606,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 1.8153,
+      "step": 58
+    },
+    {
+      "epoch": 0.01009841677364142,
+      "grad_norm": 0.1596253216266632,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 1.8854,
+      "step": 59
+    },
+    {
+      "epoch": 0.010269576379974325,
+      "grad_norm": 0.136519655585289,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 1.9049,
+      "step": 60
+    },
+    {
+      "epoch": 0.010440735986307232,
+      "grad_norm": 0.1335257738828659,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 1.8594,
+      "step": 61
+    },
+    {
+      "epoch": 0.010611895592640136,
+      "grad_norm": 0.1406267285346985,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 2.0214,
+      "step": 62
+    },
+    {
+      "epoch": 0.010783055198973043,
+      "grad_norm": 0.11417517811059952,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 1.9628,
+      "step": 63
+    },
+    {
+      "epoch": 0.010954214805305947,
+      "grad_norm": 0.12227802723646164,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.9979,
+      "step": 64
+    },
+    {
+      "epoch": 0.011125374411638854,
+      "grad_norm": 0.11370483040809631,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 1.9422,
+      "step": 65
+    },
+    {
+      "epoch": 0.011296534017971758,
+      "grad_norm": 0.09835387021303177,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 1.8134,
+      "step": 66
+    },
+    {
+      "epoch": 0.011467693624304665,
+      "grad_norm": 0.11144676804542542,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 2.1119,
+      "step": 67
+    },
+    {
+      "epoch": 0.01163885323063757,
+      "grad_norm": 0.09735066443681717,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 1.827,
+      "step": 68
+    },
+    {
+      "epoch": 0.011810012836970476,
+      "grad_norm": 0.10068103671073914,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 1.8899,
+      "step": 69
+    },
+    {
+      "epoch": 0.01198117244330338,
+      "grad_norm": 0.10140778869390488,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 2.0218,
+      "step": 70
+    },
+    {
+      "epoch": 0.012152332049636286,
+      "grad_norm": 0.0990547463297844,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 1.981,
+      "step": 71
+    },
+    {
+      "epoch": 0.012323491655969191,
+      "grad_norm": 0.1076335459947586,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 1.9312,
+      "step": 72
+    },
+    {
+      "epoch": 0.012494651262302097,
+      "grad_norm": 0.11169704794883728,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 1.9669,
+      "step": 73
+    },
+    {
+      "epoch": 0.012665810868635002,
+      "grad_norm": 0.10578777641057968,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 1.8923,
+      "step": 74
+    },
+    {
+      "epoch": 0.012836970474967908,
+      "grad_norm": 0.1006617322564125,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 1.9088,
+      "step": 75
+    },
+    {
+      "epoch": 0.013008130081300813,
+      "grad_norm": 0.11208891868591309,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 1.9875,
+      "step": 76
+    },
+    {
+      "epoch": 0.013179289687633718,
+      "grad_norm": 0.1086820513010025,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 1.979,
+      "step": 77
+    },
+    {
+      "epoch": 0.013350449293966624,
+      "grad_norm": 0.11209630221128464,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 2.0093,
+      "step": 78
+    },
+    {
+      "epoch": 0.013521608900299529,
+      "grad_norm": 0.1047407016158104,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 2.0194,
+      "step": 79
+    },
+    {
+      "epoch": 0.013692768506632435,
+      "grad_norm": 0.10114631056785583,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 1.9117,
+      "step": 80
+    },
+    {
+      "epoch": 0.01386392811296534,
+      "grad_norm": 0.10660432279109955,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.1128,
+      "step": 81
+    },
+    {
+      "epoch": 0.014035087719298246,
+      "grad_norm": 0.10562874376773834,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 1.819,
+      "step": 82
+    },
+    {
+      "epoch": 0.01420624732563115,
+      "grad_norm": 0.1116420328617096,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 2.0161,
+      "step": 83
+    },
+    {
+      "epoch": 0.014377406931964057,
+      "grad_norm": 0.1135152131319046,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 1.9062,
+      "step": 84
+    },
+    {
+      "epoch": 0.014548566538296961,
+      "grad_norm": 0.11426131427288055,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 1.8512,
+      "step": 85
+    },
+    {
+      "epoch": 0.014719726144629868,
+      "grad_norm": 0.11805808544158936,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 1.862,
+      "step": 86
+    },
+    {
+      "epoch": 0.014890885750962772,
+      "grad_norm": 0.11407601833343506,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 1.9902,
+      "step": 87
+    },
+    {
+      "epoch": 0.015062045357295679,
+      "grad_norm": 0.12108225375413895,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 2.0695,
+      "step": 88
+    },
+    {
+      "epoch": 0.015233204963628583,
+      "grad_norm": 0.1370498389005661,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 1.9937,
+      "step": 89
+    },
+    {
+      "epoch": 0.01540436456996149,
+      "grad_norm": 0.13261045515537262,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 1.9162,
+      "step": 90
+    },
+    {
+      "epoch": 0.015575524176294394,
+      "grad_norm": 0.13481606543064117,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 1.7693,
+      "step": 91
+    },
+    {
+      "epoch": 0.0157466837826273,
+      "grad_norm": 0.13738499581813812,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 1.9906,
+      "step": 92
+    },
+    {
+      "epoch": 0.015917843388960205,
+      "grad_norm": 0.14677368104457855,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 1.6928,
+      "step": 93
+    },
+    {
+      "epoch": 0.01608900299529311,
+      "grad_norm": 0.16111257672309875,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 1.9891,
+      "step": 94
+    },
+    {
+      "epoch": 0.016260162601626018,
+      "grad_norm": 0.1692948341369629,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 1.8375,
+      "step": 95
+    },
+    {
+      "epoch": 0.016431322207958923,
+      "grad_norm": 0.21693989634513855,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 1.9869,
+      "step": 96
+    },
+    {
+      "epoch": 0.016602481814291827,
+      "grad_norm": 0.23700051009655,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 2.1276,
+      "step": 97
+    },
+    {
+      "epoch": 0.016773641420624732,
+      "grad_norm": 0.29915517568588257,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 2.3728,
+      "step": 98
+    },
+    {
+      "epoch": 0.016944801026957636,
+      "grad_norm": 0.4070492386817932,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 2.1064,
+      "step": 99
+    },
+    {
+      "epoch": 0.017115960633290545,
+      "grad_norm": 0.7625799775123596,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 2.4645,
+      "step": 100
+    },
+    {
+      "epoch": 0.017115960633290545,
+      "eval_loss": 1.9608962535858154,
+      "eval_runtime": 254.4528,
+      "eval_samples_per_second": 38.671,
+      "eval_steps_per_second": 19.336,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3850414190493696.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null