Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce5ebe08181afbb3c6424cb3917aa0536f6dc621be784565df3dbee617fd5d3c
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4e6ea4906aeacdf09240c420a1fd5b9e25a7b13aa567350019f6361c71d55ec
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:803734290fd4e252ffc6eadef3b75abd45c55460e76126a5e22d7531602a7482
 size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3a622c572d1e0e30abf5de45a4ea79b825f90c0be7f0069bd0eb9f675da6536
 size 102864548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b4cb5fec9f412ccf98645d1a7a13a897033f30d6828030e8f6312a591dc4619
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:66c9a4da73eaf35e1e9c233bf55719b5bb185b723304621324986a2800f52742
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb15fdd4c0ab874f4afa0ea95fae119cbc74554df5fbe92ab825fe27063eaa04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.19030749797821045,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.20920502092050208,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 97.629,
       "eval_steps_per_second": 12.566,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2666434815590400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.14165449142456055,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.41841004184100417,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 97.629,
       "eval_steps_per_second": 12.566,
       "step": 25
+    },
+    {
+      "epoch": 0.2175732217573222,
+      "grad_norm": 0.8570240139961243,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.1162,
+      "step": 26
+    },
+    {
+      "epoch": 0.22594142259414227,
+      "grad_norm": 1.1355546712875366,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.1084,
+      "step": 27
+    },
+    {
+      "epoch": 0.23430962343096234,
+      "grad_norm": 2.2869105339050293,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0969,
+      "step": 28
+    },
+    {
+      "epoch": 0.24267782426778242,
+      "grad_norm": 1.9063622951507568,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0699,
+      "step": 29
+    },
+    {
+      "epoch": 0.2510460251046025,
+      "grad_norm": 4.026412487030029,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.4231,
+      "step": 30
+    },
+    {
+      "epoch": 0.2594142259414226,
+      "grad_norm": 3.364889144897461,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.4027,
+      "step": 31
+    },
+    {
+      "epoch": 0.26778242677824265,
+      "grad_norm": 2.8578009605407715,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.3961,
+      "step": 32
+    },
+    {
+      "epoch": 0.27615062761506276,
+      "grad_norm": 2.2702457904815674,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.3121,
+      "step": 33
+    },
+    {
+      "epoch": 0.28451882845188287,
+      "grad_norm": 1.963509440422058,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.272,
+      "step": 34
+    },
+    {
+      "epoch": 0.2928870292887029,
+      "grad_norm": 1.5735725164413452,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.21,
+      "step": 35
+    },
+    {
+      "epoch": 0.301255230125523,
+      "grad_norm": 1.2460726499557495,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.1803,
+      "step": 36
+    },
+    {
+      "epoch": 0.30962343096234307,
+      "grad_norm": 1.0312535762786865,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.1695,
+      "step": 37
+    },
+    {
+      "epoch": 0.3179916317991632,
+      "grad_norm": 0.9536454677581787,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.1765,
+      "step": 38
+    },
+    {
+      "epoch": 0.3263598326359833,
+      "grad_norm": 0.89997398853302,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.1397,
+      "step": 39
+    },
+    {
+      "epoch": 0.33472803347280333,
+      "grad_norm": 1.0240471363067627,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.1495,
+      "step": 40
+    },
+    {
+      "epoch": 0.34309623430962344,
+      "grad_norm": 1.1106736660003662,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.1691,
+      "step": 41
+    },
+    {
+      "epoch": 0.3514644351464435,
+      "grad_norm": 1.085076928138733,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.1561,
+      "step": 42
+    },
+    {
+      "epoch": 0.3598326359832636,
+      "grad_norm": 1.1227269172668457,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.1387,
+      "step": 43
+    },
+    {
+      "epoch": 0.3682008368200837,
+      "grad_norm": 1.1743844747543335,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.1569,
+      "step": 44
+    },
+    {
+      "epoch": 0.37656903765690375,
+      "grad_norm": 1.1606597900390625,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.1697,
+      "step": 45
+    },
+    {
+      "epoch": 0.38493723849372385,
+      "grad_norm": 1.1466478109359741,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.155,
+      "step": 46
+    },
+    {
+      "epoch": 0.39330543933054396,
+      "grad_norm": 1.1285361051559448,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.1265,
+      "step": 47
+    },
+    {
+      "epoch": 0.401673640167364,
+      "grad_norm": 1.214195728302002,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.1489,
+      "step": 48
+    },
+    {
+      "epoch": 0.4100418410041841,
+      "grad_norm": 1.3869253396987915,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.1463,
+      "step": 49
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "grad_norm": 1.4261292219161987,
+      "learning_rate": 0.0,
+      "loss": 0.1627,
+      "step": 50
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "eval_loss": 0.14165449142456055,
+      "eval_runtime": 2.0663,
+      "eval_samples_per_second": 97.761,
+      "eval_steps_per_second": 12.583,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5332869631180800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null