Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c6d28c51e810c1d5b63d910febaf9507a25d4f15941a752c3af74dbadc4c3e
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c0bb592bda9cb2c46ec6da47b5adaa66da41732ec2d8c60e8de12a37566ae6b
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abddc59c93e369304fb269a99ba5002159f7d91cbc023ff6402e3130014f7bc8
 size 278249554

 version https://git-lfs.github.com/spec/v1
+oid sha256:58801b3879ea9659a1361e631e085c6f40564719c65895b21096db37795b2113
 size 278249554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43666a87aff748af64b5844edfdbe970e4e9982aa9aabc765b7a0ffa071e20e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8a50273e2c0884ecb0d7fb1230a0b527160c52eb1c35e2c19daa1b836d36278
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7963826656341553,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0023102157741533057,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 38.406,
       "eval_steps_per_second": 19.203,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3485956366663680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6734322309494019,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.004620431548306611,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 38.406,
       "eval_steps_per_second": 19.203,
       "step": 50
+    },
+    {
+      "epoch": 0.0023564200896363722,
+      "grad_norm": 0.3222690522670746,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 0.6702,
+      "step": 51
+    },
+    {
+      "epoch": 0.0024026244051194383,
+      "grad_norm": 0.3845457136631012,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 0.3937,
+      "step": 52
+    },
+    {
+      "epoch": 0.0024488287206025044,
+      "grad_norm": 0.4016472399234772,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 0.5014,
+      "step": 53
+    },
+    {
+      "epoch": 0.0024950330360855705,
+      "grad_norm": 0.21051602065563202,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 0.3835,
+      "step": 54
+    },
+    {
+      "epoch": 0.0025412373515686366,
+      "grad_norm": 0.32177630066871643,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 0.52,
+      "step": 55
+    },
+    {
+      "epoch": 0.0025874416670517027,
+      "grad_norm": 0.3018689751625061,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 0.5665,
+      "step": 56
+    },
+    {
+      "epoch": 0.002633645982534769,
+      "grad_norm": 0.24280551075935364,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 0.4877,
+      "step": 57
+    },
+    {
+      "epoch": 0.002679850298017835,
+      "grad_norm": 0.20828717947006226,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 0.4176,
+      "step": 58
+    },
+    {
+      "epoch": 0.002726054613500901,
+      "grad_norm": 0.18063269555568695,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 0.5384,
+      "step": 59
+    },
+    {
+      "epoch": 0.002772258928983967,
+      "grad_norm": 0.277569442987442,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 0.4104,
+      "step": 60
+    },
+    {
+      "epoch": 0.002818463244467033,
+      "grad_norm": 0.29315823316574097,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 0.5355,
+      "step": 61
+    },
+    {
+      "epoch": 0.0028646675599500993,
+      "grad_norm": 0.24790503084659576,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 0.5383,
+      "step": 62
+    },
+    {
+      "epoch": 0.0029108718754331654,
+      "grad_norm": 0.22097140550613403,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 0.536,
+      "step": 63
+    },
+    {
+      "epoch": 0.0029570761909162315,
+      "grad_norm": 0.23576390743255615,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.4857,
+      "step": 64
+    },
+    {
+      "epoch": 0.0030032805063992976,
+      "grad_norm": 0.31752127408981323,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 0.5439,
+      "step": 65
+    },
+    {
+      "epoch": 0.0030494848218823637,
+      "grad_norm": 0.33295369148254395,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 0.6619,
+      "step": 66
+    },
+    {
+      "epoch": 0.00309568913736543,
+      "grad_norm": 0.24967357516288757,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 0.4586,
+      "step": 67
+    },
+    {
+      "epoch": 0.003141893452848496,
+      "grad_norm": 0.3030238449573517,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 0.6095,
+      "step": 68
+    },
+    {
+      "epoch": 0.003188097768331562,
+      "grad_norm": 0.2835695147514343,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 0.6811,
+      "step": 69
+    },
+    {
+      "epoch": 0.003234302083814628,
+      "grad_norm": 0.21882100403308868,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 0.4792,
+      "step": 70
+    },
+    {
+      "epoch": 0.0032805063992976946,
+      "grad_norm": 0.31645792722702026,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 0.6682,
+      "step": 71
+    },
+    {
+      "epoch": 0.0033267107147807607,
+      "grad_norm": 0.17226547002792358,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 0.3664,
+      "step": 72
+    },
+    {
+      "epoch": 0.003372915030263827,
+      "grad_norm": 0.21164900064468384,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 0.5181,
+      "step": 73
+    },
+    {
+      "epoch": 0.003419119345746893,
+      "grad_norm": 0.2374795526266098,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 0.5285,
+      "step": 74
+    },
+    {
+      "epoch": 0.003465323661229959,
+      "grad_norm": 0.2672363817691803,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 0.5057,
+      "step": 75
+    },
+    {
+      "epoch": 0.003511527976713025,
+      "grad_norm": 0.23033465445041656,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 0.5224,
+      "step": 76
+    },
+    {
+      "epoch": 0.003557732292196091,
+      "grad_norm": 0.2521456778049469,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 0.5363,
+      "step": 77
+    },
+    {
+      "epoch": 0.0036039366076791573,
+      "grad_norm": 0.3108648657798767,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 0.5886,
+      "step": 78
+    },
+    {
+      "epoch": 0.0036501409231622234,
+      "grad_norm": 0.2801637351512909,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 0.5706,
+      "step": 79
+    },
+    {
+      "epoch": 0.0036963452386452895,
+      "grad_norm": 0.2559647262096405,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 0.5647,
+      "step": 80
+    },
+    {
+      "epoch": 0.0037425495541283556,
+      "grad_norm": 0.23344534635543823,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.4891,
+      "step": 81
+    },
+    {
+      "epoch": 0.0037887538696114217,
+      "grad_norm": 0.2664535939693451,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 0.5494,
+      "step": 82
+    },
+    {
+      "epoch": 0.0038349581850944878,
+      "grad_norm": 0.31824880838394165,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 0.6566,
+      "step": 83
+    },
+    {
+      "epoch": 0.003881162500577554,
+      "grad_norm": 0.29656538367271423,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 0.6361,
+      "step": 84
+    },
+    {
+      "epoch": 0.00392736681606062,
+      "grad_norm": 0.30476269125938416,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 0.6621,
+      "step": 85
+    },
+    {
+      "epoch": 0.003973571131543686,
+      "grad_norm": 0.29754209518432617,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 0.7092,
+      "step": 86
+    },
+    {
+      "epoch": 0.004019775447026752,
+      "grad_norm": 0.28509530425071716,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 0.6042,
+      "step": 87
+    },
+    {
+      "epoch": 0.004065979762509818,
+      "grad_norm": 0.39861199259757996,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 0.8293,
+      "step": 88
+    },
+    {
+      "epoch": 0.004112184077992884,
+      "grad_norm": 0.28901976346969604,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 0.5748,
+      "step": 89
+    },
+    {
+      "epoch": 0.0041583883934759504,
+      "grad_norm": 0.3572286367416382,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 0.6117,
+      "step": 90
+    },
+    {
+      "epoch": 0.0042045927089590165,
+      "grad_norm": 0.3332473039627075,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 0.653,
+      "step": 91
+    },
+    {
+      "epoch": 0.004250797024442083,
+      "grad_norm": 0.3621080815792084,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 0.6299,
+      "step": 92
+    },
+    {
+      "epoch": 0.004297001339925149,
+      "grad_norm": 0.4089956283569336,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 0.8945,
+      "step": 93
+    },
+    {
+      "epoch": 0.004343205655408215,
+      "grad_norm": 0.3218964636325836,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 0.7201,
+      "step": 94
+    },
+    {
+      "epoch": 0.004389409970891281,
+      "grad_norm": 0.3587651252746582,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 0.7803,
+      "step": 95
+    },
+    {
+      "epoch": 0.004435614286374347,
+      "grad_norm": 0.3168658912181854,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 0.7799,
+      "step": 96
+    },
+    {
+      "epoch": 0.004481818601857413,
+      "grad_norm": 0.4870496988296509,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 0.9183,
+      "step": 97
+    },
+    {
+      "epoch": 0.004528022917340479,
+      "grad_norm": 0.31272202730178833,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.768,
+      "step": 98
+    },
+    {
+      "epoch": 0.004574227232823545,
+      "grad_norm": 0.300275057554245,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 0.6447,
+      "step": 99
+    },
+    {
+      "epoch": 0.004620431548306611,
+      "grad_norm": 0.377289354801178,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 0.7445,
+      "step": 100
+    },
+    {
+      "epoch": 0.004620431548306611,
+      "eval_loss": 0.6734322309494019,
+      "eval_runtime": 950.0633,
+      "eval_samples_per_second": 38.367,
+      "eval_steps_per_second": 19.184,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6971912733327360.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null