Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:646dc19f5a91dc1181967a11b5fefecfeeafeea9ff0667965d405a8b1e04d579
 size 78207176

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d08eae97045ebcb9387966899d06b919e9a5080064a9dc6d449581f31ce795
 size 78207176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aedd48ff7fb5a12139a7d393843d3fc15df18076939e2848e9bdb0566008a2aa
 size 156656510

 version https://git-lfs.github.com/spec/v1
+oid sha256:45417ee77471c8e4564776773972a4b6fd0f9c63916c72a29b942506a9e759ce
 size 156656510

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f40ed1f3a666b9ace6f149bce4e7f73c350693f365e4fdf7209bc8407c788c9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:17d82a56c3cee5bac146bfbc8d9553a71fbc98a844c5fabe7a96ee64f6b87592
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.2464494705200195,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.07969715082685794,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 43.048,
       "eval_steps_per_second": 21.524,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2472176045260800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.1894659996032715,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.1195457262402869,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 43.048,
       "eval_steps_per_second": 21.524,
       "step": 100
+    },
+    {
+      "epoch": 0.08049412233512653,
+      "grad_norm": 0.4536077678203583,
+      "learning_rate": 6.279213887972179e-05,
+      "loss": 4.4386,
+      "step": 101
+    },
+    {
+      "epoch": 0.0812910938433951,
+      "grad_norm": 0.49079081416130066,
+      "learning_rate": 6.189675975213094e-05,
+      "loss": 4.1592,
+      "step": 102
+    },
+    {
+      "epoch": 0.08208806535166367,
+      "grad_norm": 0.5224800109863281,
+      "learning_rate": 6.099731789198344e-05,
+      "loss": 4.4185,
+      "step": 103
+    },
+    {
+      "epoch": 0.08288503685993226,
+      "grad_norm": 0.4378278851509094,
+      "learning_rate": 6.009412045785051e-05,
+      "loss": 4.1982,
+      "step": 104
+    },
+    {
+      "epoch": 0.08368200836820083,
+      "grad_norm": 0.42964717745780945,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 4.3514,
+      "step": 105
+    },
+    {
+      "epoch": 0.08447897987646942,
+      "grad_norm": 0.4140433967113495,
+      "learning_rate": 5.82776938092065e-05,
+      "loss": 4.2388,
+      "step": 106
+    },
+    {
+      "epoch": 0.085275951384738,
+      "grad_norm": 0.3792392909526825,
+      "learning_rate": 5.736508490273188e-05,
+      "loss": 4.2905,
+      "step": 107
+    },
+    {
+      "epoch": 0.08607292289300658,
+      "grad_norm": 0.3357432782649994,
+      "learning_rate": 5.644996082651017e-05,
+      "loss": 4.1563,
+      "step": 108
+    },
+    {
+      "epoch": 0.08686989440127516,
+      "grad_norm": 0.3008951246738434,
+      "learning_rate": 5.553263409457504e-05,
+      "loss": 4.1949,
+      "step": 109
+    },
+    {
+      "epoch": 0.08766686590954373,
+      "grad_norm": 0.26610758900642395,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 4.2839,
+      "step": 110
+    },
+    {
+      "epoch": 0.08846383741781232,
+      "grad_norm": 0.25112292170524597,
+      "learning_rate": 5.3692626373743706e-05,
+      "loss": 4.273,
+      "step": 111
+    },
+    {
+      "epoch": 0.08926080892608089,
+      "grad_norm": 0.25932425260543823,
+      "learning_rate": 5.27705737457985e-05,
+      "loss": 4.2267,
+      "step": 112
+    },
+    {
+      "epoch": 0.09005778043434948,
+      "grad_norm": 0.2820190191268921,
+      "learning_rate": 5.184757496945726e-05,
+      "loss": 4.1222,
+      "step": 113
+    },
+    {
+      "epoch": 0.09085475194261805,
+      "grad_norm": 0.2938423156738281,
+      "learning_rate": 5.092394524795649e-05,
+      "loss": 4.3083,
+      "step": 114
+    },
+    {
+      "epoch": 0.09165172345088662,
+      "grad_norm": 0.2608668804168701,
+      "learning_rate": 5e-05,
+      "loss": 4.1598,
+      "step": 115
+    },
+    {
+      "epoch": 0.09244869495915521,
+      "grad_norm": 0.29658424854278564,
+      "learning_rate": 4.907605475204352e-05,
+      "loss": 4.3735,
+      "step": 116
+    },
+    {
+      "epoch": 0.09324566646742379,
+      "grad_norm": 0.3041045069694519,
+      "learning_rate": 4.8152425030542766e-05,
+      "loss": 4.239,
+      "step": 117
+    },
+    {
+      "epoch": 0.09404263797569237,
+      "grad_norm": 0.32803621888160706,
+      "learning_rate": 4.72294262542015e-05,
+      "loss": 4.4035,
+      "step": 118
+    },
+    {
+      "epoch": 0.09483960948396095,
+      "grad_norm": 0.27936574816703796,
+      "learning_rate": 4.6307373626256306e-05,
+      "loss": 3.9513,
+      "step": 119
+    },
+    {
+      "epoch": 0.09563658099222953,
+      "grad_norm": 0.27713343501091003,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 4.5389,
+      "step": 120
+    },
+    {
+      "epoch": 0.09643355250049811,
+      "grad_norm": 0.26673904061317444,
+      "learning_rate": 4.446736590542497e-05,
+      "loss": 4.2087,
+      "step": 121
+    },
+    {
+      "epoch": 0.09723052400876668,
+      "grad_norm": 0.26535698771476746,
+      "learning_rate": 4.3550039173489845e-05,
+      "loss": 4.1479,
+      "step": 122
+    },
+    {
+      "epoch": 0.09802749551703527,
+      "grad_norm": 0.2699700593948364,
+      "learning_rate": 4.2634915097268115e-05,
+      "loss": 4.1494,
+      "step": 123
+    },
+    {
+      "epoch": 0.09882446702530384,
+      "grad_norm": 0.27292296290397644,
+      "learning_rate": 4.1722306190793495e-05,
+      "loss": 4.223,
+      "step": 124
+    },
+    {
+      "epoch": 0.09962143853357243,
+      "grad_norm": 0.274880588054657,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 4.1813,
+      "step": 125
+    },
+    {
+      "epoch": 0.100418410041841,
+      "grad_norm": 0.2678457200527191,
+      "learning_rate": 3.99058795421495e-05,
+      "loss": 4.026,
+      "step": 126
+    },
+    {
+      "epoch": 0.10121538155010959,
+      "grad_norm": 0.2603027820587158,
+      "learning_rate": 3.9002682108016585e-05,
+      "loss": 4.0395,
+      "step": 127
+    },
+    {
+      "epoch": 0.10201235305837816,
+      "grad_norm": 0.29638221859931946,
+      "learning_rate": 3.8103240247869075e-05,
+      "loss": 4.0431,
+      "step": 128
+    },
+    {
+      "epoch": 0.10280932456664674,
+      "grad_norm": 0.27740830183029175,
+      "learning_rate": 3.720786112027822e-05,
+      "loss": 3.9725,
+      "step": 129
+    },
+    {
+      "epoch": 0.10360629607491532,
+      "grad_norm": 0.2580147683620453,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 4.1768,
+      "step": 130
+    },
+    {
+      "epoch": 0.1044032675831839,
+      "grad_norm": 0.2813362181186676,
+      "learning_rate": 3.543051265553377e-05,
+      "loss": 4.1545,
+      "step": 131
+    },
+    {
+      "epoch": 0.10520023909145249,
+      "grad_norm": 0.26297634840011597,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 4.273,
+      "step": 132
+    },
+    {
+      "epoch": 0.10599721059972106,
+      "grad_norm": 0.26882943511009216,
+      "learning_rate": 3.367306435799584e-05,
+      "loss": 4.1523,
+      "step": 133
+    },
+    {
+      "epoch": 0.10679418210798963,
+      "grad_norm": 0.25994184613227844,
+      "learning_rate": 3.2802554068303596e-05,
+      "loss": 4.1418,
+      "step": 134
+    },
+    {
+      "epoch": 0.10759115361625822,
+      "grad_norm": 0.2707768678665161,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 3.9873,
+      "step": 135
+    },
+    {
+      "epoch": 0.1083881251245268,
+      "grad_norm": 0.26885348558425903,
+      "learning_rate": 3.107944749788449e-05,
+      "loss": 4.1367,
+      "step": 136
+    },
+    {
+      "epoch": 0.10918509663279538,
+      "grad_norm": 0.28563767671585083,
+      "learning_rate": 3.0227439656472877e-05,
+      "loss": 3.9702,
+      "step": 137
+    },
+    {
+      "epoch": 0.10998206814106395,
+      "grad_norm": 0.2777661681175232,
+      "learning_rate": 2.9382184126304834e-05,
+      "loss": 4.0914,
+      "step": 138
+    },
+    {
+      "epoch": 0.11077903964933254,
+      "grad_norm": 0.27080315351486206,
+      "learning_rate": 2.8543969561369556e-05,
+      "loss": 4.124,
+      "step": 139
+    },
+    {
+      "epoch": 0.11157601115760112,
+      "grad_norm": 0.29918569326400757,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 4.1961,
+      "step": 140
+    },
+    {
+      "epoch": 0.11237298266586969,
+      "grad_norm": 0.2737353444099426,
+      "learning_rate": 2.688980582298435e-05,
+      "loss": 3.9326,
+      "step": 141
+    },
+    {
+      "epoch": 0.11316995417413828,
+      "grad_norm": 0.3046242296695709,
+      "learning_rate": 2.607442154493568e-05,
+      "loss": 4.2884,
+      "step": 142
+    },
+    {
+      "epoch": 0.11396692568240685,
+      "grad_norm": 0.2995275557041168,
+      "learning_rate": 2.5267207830011068e-05,
+      "loss": 4.0685,
+      "step": 143
+    },
+    {
+      "epoch": 0.11476389719067544,
+      "grad_norm": 0.3147706091403961,
+      "learning_rate": 2.446844034095466e-05,
+      "loss": 4.1747,
+      "step": 144
+    },
+    {
+      "epoch": 0.11556086869894401,
+      "grad_norm": 0.31899207830429077,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 4.0118,
+      "step": 145
+    },
+    {
+      "epoch": 0.1163578402072126,
+      "grad_norm": 0.3425534963607788,
+      "learning_rate": 2.2897332176377528e-05,
+      "loss": 4.0294,
+      "step": 146
+    },
+    {
+      "epoch": 0.11715481171548117,
+      "grad_norm": 0.39953556656837463,
+      "learning_rate": 2.2125528032855724e-05,
+      "loss": 4.0949,
+      "step": 147
+    },
+    {
+      "epoch": 0.11795178322374975,
+      "grad_norm": 0.4550447463989258,
+      "learning_rate": 2.136324299597474e-05,
+      "loss": 3.8362,
+      "step": 148
+    },
+    {
+      "epoch": 0.11874875473201833,
+      "grad_norm": 0.5356332659721375,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 4.2568,
+      "step": 149
+    },
+    {
+      "epoch": 0.1195457262402869,
+      "grad_norm": 0.9250167608261108,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 4.1155,
+      "step": 150
+    },
+    {
+      "epoch": 0.1195457262402869,
+      "eval_loss": 4.1894659996032715,
+      "eval_runtime": 49.1569,
+      "eval_samples_per_second": 43.005,
+      "eval_steps_per_second": 21.503,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3708264067891200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null