Training in progress, step 75, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6116ba9bdb32e058073d5d71820ab2748bd229f6356c13e7695d45e0e58c4a33
 size 166182480

 version https://git-lfs.github.com/spec/v1
+oid sha256:be992a161695a4dac5a9f77be39443ed60c63ddae05bc57d8053443e345f9506
 size 166182480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9965a7197909b86f7c7ae1dcfd465d917f68014f2c106b271dd4f6cfaebf260
 size 332574358

 version https://git-lfs.github.com/spec/v1
+oid sha256:807109ba001f38b278cc17333e68ff3a853562f2cc87fac19435533332b70839
 size 332574358

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f99d89928cb6b064d06aab3037606d4c8f62a0c3ea9b4c2f01092be14ae6b56a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:74fbdb24bbb7f1a23abb124ce4728c07d6c90bdb4ac7d58bfd88dae2d675f02d
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a874492c67d487c51ed17d584d1b6dc07b70a151ea0a5f76ae84796a21604b94
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:54a1e7643f3a17e01a320f4f18782654ea34853ce31b95cf58724bea0701e829
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05f89fb41cb495727feaede94276307a5219438e86f5fdf6207cfba00e400d6a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e4797be13d57c6026b4d4edc4b60c1aef6fec4f42f525d49e6bc2393434b157
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3536ce552e10d9d1c9b4928d6955c8094145e2581bce3d55a8e53a23e6a6dbf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a49a618d6fe2cb02958c4d240c002e254d892a629ebad0b005364212d46c782
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df19ed1a9610a5422497073697cbf4575f80de47fbb46ef0cdd2779386b031fa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5b53655d80c3ade692dacae57cafa4aff84c325b5cb8d0fba89d01b50d41566
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.31743958592414856,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.2757669769045157,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 24.035,
       "eval_steps_per_second": 6.249,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.62480894509056e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.28790074586868286,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.4136504653567735,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.035,
       "eval_steps_per_second": 6.249,
       "step": 50
+    },
+    {
+      "epoch": 0.281282316442606,
+      "grad_norm": 9.661118507385254,
+      "learning_rate": 5.192909139858981e-05,
+      "loss": 0.6918,
+      "step": 51
+    },
+    {
+      "epoch": 0.2867976559806963,
+      "grad_norm": 9.91291332244873,
+      "learning_rate": 5.0398113297608465e-05,
+      "loss": 0.7725,
+      "step": 52
+    },
+    {
+      "epoch": 0.29231299551878664,
+      "grad_norm": 9.74583911895752,
+      "learning_rate": 4.887250079066892e-05,
+      "loss": 0.8055,
+      "step": 53
+    },
+    {
+      "epoch": 0.29782833505687695,
+      "grad_norm": 9.611279487609863,
+      "learning_rate": 4.7354032673710005e-05,
+      "loss": 0.8017,
+      "step": 54
+    },
+    {
+      "epoch": 0.30334367459496725,
+      "grad_norm": 9.350974082946777,
+      "learning_rate": 4.584447941263149e-05,
+      "loss": 0.7482,
+      "step": 55
+    },
+    {
+      "epoch": 0.30885901413305755,
+      "grad_norm": 0.41890618205070496,
+      "learning_rate": 4.43456010790099e-05,
+      "loss": 0.0797,
+      "step": 56
+    },
+    {
+      "epoch": 0.31437435367114785,
+      "grad_norm": 0.7210342288017273,
+      "learning_rate": 4.285914529793391e-05,
+      "loss": 0.0184,
+      "step": 57
+    },
+    {
+      "epoch": 0.3198896932092382,
+      "grad_norm": 0.8834096193313599,
+      "learning_rate": 4.13868452103516e-05,
+      "loss": 0.0226,
+      "step": 58
+    },
+    {
+      "epoch": 0.3254050327473285,
+      "grad_norm": 0.9115370512008667,
+      "learning_rate": 3.9930417452305626e-05,
+      "loss": 0.0235,
+      "step": 59
+    },
+    {
+      "epoch": 0.3309203722854188,
+      "grad_norm": 0.8448688387870789,
+      "learning_rate": 3.8491560153412466e-05,
+      "loss": 0.0218,
+      "step": 60
+    },
+    {
+      "epoch": 0.3364357118235091,
+      "grad_norm": 0.7082563042640686,
+      "learning_rate": 3.707195095691913e-05,
+      "loss": 0.0184,
+      "step": 61
+    },
+    {
+      "epoch": 0.3419510513615994,
+      "grad_norm": 0.5660529136657715,
+      "learning_rate": 3.567324506364632e-05,
+      "loss": 0.0147,
+      "step": 62
+    },
+    {
+      "epoch": 0.3474663908996898,
+      "grad_norm": 5.351521015167236,
+      "learning_rate": 3.4297073302098156e-05,
+      "loss": 0.4547,
+      "step": 63
+    },
+    {
+      "epoch": 0.3529817304377801,
+      "grad_norm": 8.921615600585938,
+      "learning_rate": 3.2945040226989244e-05,
+      "loss": 0.7382,
+      "step": 64
+    },
+    {
+      "epoch": 0.3584970699758704,
+      "grad_norm": 8.974565505981445,
+      "learning_rate": 3.16187222484055e-05,
+      "loss": 0.7427,
+      "step": 65
+    },
+    {
+      "epoch": 0.3640124095139607,
+      "grad_norm": 8.922871589660645,
+      "learning_rate": 3.0319665793780648e-05,
+      "loss": 0.7236,
+      "step": 66
+    },
+    {
+      "epoch": 0.369527749052051,
+      "grad_norm": 8.645066261291504,
+      "learning_rate": 2.9049385504830985e-05,
+      "loss": 0.6789,
+      "step": 67
+    },
+    {
+      "epoch": 0.37504308859014135,
+      "grad_norm": 5.97182035446167,
+      "learning_rate": 2.7809362471550748e-05,
+      "loss": 0.4572,
+      "step": 68
+    },
+    {
+      "epoch": 0.38055842812823165,
+      "grad_norm": 0.8891826868057251,
+      "learning_rate": 2.660104250532764e-05,
+      "loss": 0.0231,
+      "step": 69
+    },
+    {
+      "epoch": 0.38607376766632195,
+      "grad_norm": 1.1015204191207886,
+      "learning_rate": 2.5425834453191232e-05,
+      "loss": 0.029,
+      "step": 70
+    },
+    {
+      "epoch": 0.39158910720441226,
+      "grad_norm": 1.2106517553329468,
+      "learning_rate": 2.4285108555160577e-05,
+      "loss": 0.0317,
+      "step": 71
+    },
+    {
+      "epoch": 0.39710444674250256,
+      "grad_norm": 1.1796172857284546,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 0.0314,
+      "step": 72
+    },
+    {
+      "epoch": 0.4026197862805929,
+      "grad_norm": 1.0850085020065308,
+      "learning_rate": 2.2112381607484417e-05,
+      "loss": 0.0283,
+      "step": 73
+    },
+    {
+      "epoch": 0.4081351258186832,
+      "grad_norm": 0.9120981097221375,
+      "learning_rate": 2.1082913860268765e-05,
+      "loss": 0.0237,
+      "step": 74
+    },
+    {
+      "epoch": 0.4136504653567735,
+      "grad_norm": 0.8024790287017822,
+      "learning_rate": 2.0092991918301108e-05,
+      "loss": 0.0207,
+      "step": 75
+    },
+    {
+      "epoch": 0.4136504653567735,
+      "eval_loss": 0.28790074586868286,
+      "eval_runtime": 2.0948,
+      "eval_samples_per_second": 23.869,
+      "eval_steps_per_second": 6.206,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.43721341763584e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null