Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c23385efa3fc955db2fff44d3db23a01911ec422e51ad2d424feeb61c661899
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1e4e563e0fb719fd954110f793016a75240aae68bec4a466068b9ac9a16f53a
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8b362f1ba0221f89f41d336bf1b9606120164cef605cf9911b172ce12a3f648
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:488ed8b15db5016098693e2adfd70de76b0d7c338d0f05c5308ccd3ba2f51f36
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2abc4fdd8cb56fd00022ed88191faa18e1480506d1d27bfd3ba0d3f67f348b05
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8e58e3ea04cfdd0cf876acb246fc92a1b5db6339901eb55ca6cb462639cf77b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9620e65ba759e84fe497b9913b32b878de30259f05dce4a6e4bb8378e19a64ee
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f80a318932d5a5365c8572db2538b64fc8c6d187678736ec5b43b421fa8daf07
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf07919d7c2ea628f5a103dcb60df086f1a06bbf7048cc92dce48b51087bc00a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a106cfc9f6e15ffe5207fdea7ef40b48af5e5e0fb6265f1f8f421b1f96ecfff
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5229f138ebfdf512957fabcfbb40f1ed6738724079ef1ae986d222f3455c12
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fde3ca88e88bba4acc0257b74e8363297652842185389072df73b8952fa889c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.399475336074829,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.013121207151057898,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 35.071,
       "eval_steps_per_second": 4.385,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.9859068337822106e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.353839635848999,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.026242414302115796,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.071,
       "eval_steps_per_second": 4.385,
       "step": 25
+    },
+    {
+      "epoch": 0.013646055437100213,
+      "grad_norm": 0.433169960975647,
+      "learning_rate": 5e-05,
+      "loss": 2.3497,
+      "step": 26
+    },
+    {
+      "epoch": 0.014170903723142529,
+      "grad_norm": 0.44894787669181824,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 2.3805,
+      "step": 27
+    },
+    {
+      "epoch": 0.014695752009184845,
+      "grad_norm": 0.48380163311958313,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 2.4482,
+      "step": 28
+    },
+    {
+      "epoch": 0.015220600295227161,
+      "grad_norm": 0.41069453954696655,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 2.424,
+      "step": 29
+    },
+    {
+      "epoch": 0.015745448581269476,
+      "grad_norm": 0.3481389582157135,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 2.3664,
+      "step": 30
+    },
+    {
+      "epoch": 0.016270296867311792,
+      "grad_norm": 0.3449362814426422,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 2.2724,
+      "step": 31
+    },
+    {
+      "epoch": 0.016795145153354108,
+      "grad_norm": 0.3418646454811096,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 2.3587,
+      "step": 32
+    },
+    {
+      "epoch": 0.017319993439396424,
+      "grad_norm": 0.4137051999568939,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 2.2393,
+      "step": 33
+    },
+    {
+      "epoch": 0.01784484172543874,
+      "grad_norm": 0.3769303560256958,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.4014,
+      "step": 34
+    },
+    {
+      "epoch": 0.018369690011481057,
+      "grad_norm": 0.44172248244285583,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 2.2937,
+      "step": 35
+    },
+    {
+      "epoch": 0.018894538297523373,
+      "grad_norm": 0.46419256925582886,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 2.4315,
+      "step": 36
+    },
+    {
+      "epoch": 0.01941938658356569,
+      "grad_norm": 0.6354751586914062,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 2.5355,
+      "step": 37
+    },
+    {
+      "epoch": 0.019944234869608005,
+      "grad_norm": 0.3062434196472168,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 2.4477,
+      "step": 38
+    },
+    {
+      "epoch": 0.02046908315565032,
+      "grad_norm": 0.29478734731674194,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 2.3797,
+      "step": 39
+    },
+    {
+      "epoch": 0.020993931441692634,
+      "grad_norm": 0.27740278840065,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 2.2876,
+      "step": 40
+    },
+    {
+      "epoch": 0.02151877972773495,
+      "grad_norm": 0.28595972061157227,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 2.3316,
+      "step": 41
+    },
+    {
+      "epoch": 0.022043628013777267,
+      "grad_norm": 0.36039939522743225,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 2.3168,
+      "step": 42
+    },
+    {
+      "epoch": 0.022568476299819583,
+      "grad_norm": 0.2989155650138855,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 2.3838,
+      "step": 43
+    },
+    {
+      "epoch": 0.0230933245858619,
+      "grad_norm": 0.32794296741485596,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 2.3061,
+      "step": 44
+    },
+    {
+      "epoch": 0.023618172871904215,
+      "grad_norm": 0.34658685326576233,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 2.227,
+      "step": 45
+    },
+    {
+      "epoch": 0.02414302115794653,
+      "grad_norm": 0.37640607357025146,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 2.2494,
+      "step": 46
+    },
+    {
+      "epoch": 0.024667869443988848,
+      "grad_norm": 0.3610791265964508,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 2.3854,
+      "step": 47
+    },
+    {
+      "epoch": 0.025192717730031164,
+      "grad_norm": 0.39148759841918945,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 2.403,
+      "step": 48
+    },
+    {
+      "epoch": 0.02571756601607348,
+      "grad_norm": 0.4699634313583374,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 2.3342,
+      "step": 49
+    },
+    {
+      "epoch": 0.026242414302115796,
+      "grad_norm": 0.7783499360084534,
+      "learning_rate": 0.0,
+      "loss": 2.4725,
+      "step": 50
+    },
+    {
+      "epoch": 0.026242414302115796,
+      "eval_loss": 2.353839635848999,
+      "eval_runtime": 366.0989,
+      "eval_samples_per_second": 35.062,
+      "eval_steps_per_second": 4.384,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.969948642440643e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null