Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:844e860d2831d5f1c9dac4baa5e060deae878fc65580708da4d721525515e244
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:daa6a5dd07b72ef9430ace44e750fcdb4b7759bb0894a8b53a989328b0f60392
 size 147770496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17545806be4cc91e5b8716eceb6cc561c3f16d33445eae457b88bbe10d85d9b4
 size 295765866

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee8d3047990aa86dc0a36c1ef1cd2bb44cd433c10bb8c7e8d5f0f851a8fd47e6
 size 295765866

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23cf5c6a9723d3e0888f1d57d10b7875593a7b5ca622d73faef8dfd02c8188b6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e26f5521fc1e6154bc9e3b1f3aa7674a376b8de111db48b8d3988bf77187f582
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89903de470ab92c49c93b06b8eee1fdb914dd305343743334145482322d2079b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd15b1b91b4e9d24520dd50941a3a4e7796b5305fbac3c66fe134a0d0a7ca684
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89bc779d49cd08996d91f2e4fd7feac65f39235a68fefd44802519c4293df22e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8ec05176df7a0c2aa9818822dcf5a3c91459baab3140e17c9bffba86c07f82f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb78b5918aefa5aa6e0fe0980bb3e0af4218a3955ad60ed3e2eed068948e6115
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f70ac3e835d56a709928da1914610ebaf09c78697ec6a3898b27108602ce80de
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b01fa28747f99e5f3057ec8cf64e211a75a94a55d24d1c5d7fa3e34600433ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:78f280e0e658edbdc4fcfbaf05da6eb84d8d86c74ef9e6edc7763096efc3a439
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2015514373779297,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 1.29136400322841,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,372 @@
       "eval_samples_per_second": 39.35,
       "eval_steps_per_second": 10.231,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1141,7 +1507,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.186390028423004e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1887668371200562,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 1.7218186709712133,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.35,
       "eval_steps_per_second": 10.231,
       "step": 150
+    },
+    {
+      "epoch": 1.299973096583266,
+      "grad_norm": 0.7098111510276794,
+      "learning_rate": 8.262628577071638e-05,
+      "loss": 0.9429,
+      "step": 151
+    },
+    {
+      "epoch": 1.308582189938122,
+      "grad_norm": 0.705226719379425,
+      "learning_rate": 8.237311363287896e-05,
+      "loss": 0.9092,
+      "step": 152
+    },
+    {
+      "epoch": 1.3171912832929782,
+      "grad_norm": 1.0044783353805542,
+      "learning_rate": 8.211855863706654e-05,
+      "loss": 1.0479,
+      "step": 153
+    },
+    {
+      "epoch": 1.3258003766478343,
+      "grad_norm": 1.1548088788986206,
+      "learning_rate": 8.18626336431025e-05,
+      "loss": 1.5881,
+      "step": 154
+    },
+    {
+      "epoch": 1.3344094700026903,
+      "grad_norm": 0.8297902941703796,
+      "learning_rate": 8.160535158002092e-05,
+      "loss": 1.1529,
+      "step": 155
+    },
+    {
+      "epoch": 1.3430185633575464,
+      "grad_norm": 0.9534130096435547,
+      "learning_rate": 8.13467254454134e-05,
+      "loss": 1.1669,
+      "step": 156
+    },
+    {
+      "epoch": 1.3516276567124024,
+      "grad_norm": 0.8651900291442871,
+      "learning_rate": 8.108676830477255e-05,
+      "loss": 1.0837,
+      "step": 157
+    },
+    {
+      "epoch": 1.3602367500672585,
+      "grad_norm": 0.7334545254707336,
+      "learning_rate": 8.082549329083179e-05,
+      "loss": 0.9547,
+      "step": 158
+    },
+    {
+      "epoch": 1.3688458434221147,
+      "grad_norm": 0.7457680702209473,
+      "learning_rate": 8.056291360290201e-05,
+      "loss": 1.0481,
+      "step": 159
+    },
+    {
+      "epoch": 1.3774549367769706,
+      "grad_norm": 0.6921712756156921,
+      "learning_rate": 8.029904250620473e-05,
+      "loss": 0.8894,
+      "step": 160
+    },
+    {
+      "epoch": 1.3860640301318268,
+      "grad_norm": 0.7528761625289917,
+      "learning_rate": 8.003389333120192e-05,
+      "loss": 0.9376,
+      "step": 161
+    },
+    {
+      "epoch": 1.3946731234866827,
+      "grad_norm": 0.8016011714935303,
+      "learning_rate": 7.976747947292258e-05,
+      "loss": 0.867,
+      "step": 162
+    },
+    {
+      "epoch": 1.4032822168415389,
+      "grad_norm": 0.8211402893066406,
+      "learning_rate": 7.949981439028605e-05,
+      "loss": 0.8881,
+      "step": 163
+    },
+    {
+      "epoch": 1.411891310196395,
+      "grad_norm": 0.8662030696868896,
+      "learning_rate": 7.923091160542212e-05,
+      "loss": 1.0727,
+      "step": 164
+    },
+    {
+      "epoch": 1.420500403551251,
+      "grad_norm": 0.9291104078292847,
+      "learning_rate": 7.896078470298774e-05,
+      "loss": 0.9085,
+      "step": 165
+    },
+    {
+      "epoch": 1.4291094969061071,
+      "grad_norm": 0.9801819324493408,
+      "learning_rate": 7.868944732948101e-05,
+      "loss": 1.1554,
+      "step": 166
+    },
+    {
+      "epoch": 1.437718590260963,
+      "grad_norm": 1.1721428632736206,
+      "learning_rate": 7.841691319255154e-05,
+      "loss": 1.363,
+      "step": 167
+    },
+    {
+      "epoch": 1.4463276836158192,
+      "grad_norm": 1.0181959867477417,
+      "learning_rate": 7.814319606030803e-05,
+      "loss": 1.135,
+      "step": 168
+    },
+    {
+      "epoch": 1.4549367769706754,
+      "grad_norm": 0.757427453994751,
+      "learning_rate": 7.78683097606228e-05,
+      "loss": 0.9332,
+      "step": 169
+    },
+    {
+      "epoch": 1.4635458703255313,
+      "grad_norm": 0.8897256255149841,
+      "learning_rate": 7.759226818043309e-05,
+      "loss": 1.0629,
+      "step": 170
+    },
+    {
+      "epoch": 1.4721549636803875,
+      "grad_norm": 1.0402635335922241,
+      "learning_rate": 7.73150852650396e-05,
+      "loss": 0.9096,
+      "step": 171
+    },
+    {
+      "epoch": 1.4807640570352434,
+      "grad_norm": 0.6742547750473022,
+      "learning_rate": 7.703677501740194e-05,
+      "loss": 0.9271,
+      "step": 172
+    },
+    {
+      "epoch": 1.4893731503900995,
+      "grad_norm": 0.8658159375190735,
+      "learning_rate": 7.675735149743131e-05,
+      "loss": 0.7919,
+      "step": 173
+    },
+    {
+      "epoch": 1.4979822437449557,
+      "grad_norm": 0.8262009024620056,
+      "learning_rate": 7.647682882128002e-05,
+      "loss": 0.9107,
+      "step": 174
+    },
+    {
+      "epoch": 1.5065913370998116,
+      "grad_norm": 0.6974323391914368,
+      "learning_rate": 7.619522116062857e-05,
+      "loss": 0.8795,
+      "step": 175
+    },
+    {
+      "epoch": 1.5065913370998116,
+      "eval_loss": 1.192854642868042,
+      "eval_runtime": 1.2757,
+      "eval_samples_per_second": 39.194,
+      "eval_steps_per_second": 10.19,
+      "step": 175
+    },
+    {
+      "epoch": 1.5152004304546678,
+      "grad_norm": 0.8274783492088318,
+      "learning_rate": 7.591254274196959e-05,
+      "loss": 0.9152,
+      "step": 176
+    },
+    {
+      "epoch": 1.5238095238095237,
+      "grad_norm": 1.0990360975265503,
+      "learning_rate": 7.562880784588916e-05,
+      "loss": 0.8394,
+      "step": 177
+    },
+    {
+      "epoch": 1.5324186171643799,
+      "grad_norm": 0.8963367342948914,
+      "learning_rate": 7.534403080634538e-05,
+      "loss": 0.7276,
+      "step": 178
+    },
+    {
+      "epoch": 1.541027710519236,
+      "grad_norm": 1.506883978843689,
+      "learning_rate": 7.505822600994424e-05,
+      "loss": 1.4906,
+      "step": 179
+    },
+    {
+      "epoch": 1.549636803874092,
+      "grad_norm": 1.6557178497314453,
+      "learning_rate": 7.477140789521276e-05,
+      "loss": 1.1603,
+      "step": 180
+    },
+    {
+      "epoch": 1.5582458972289481,
+      "grad_norm": 0.9448726773262024,
+      "learning_rate": 7.448359095186973e-05,
+      "loss": 1.1379,
+      "step": 181
+    },
+    {
+      "epoch": 1.566854990583804,
+      "grad_norm": 0.754417359828949,
+      "learning_rate": 7.419478972009348e-05,
+      "loss": 1.0106,
+      "step": 182
+    },
+    {
+      "epoch": 1.5754640839386602,
+      "grad_norm": 0.844013512134552,
+      "learning_rate": 7.390501878978759e-05,
+      "loss": 0.938,
+      "step": 183
+    },
+    {
+      "epoch": 1.5840731772935164,
+      "grad_norm": 0.8120993971824646,
+      "learning_rate": 7.361429279984355e-05,
+      "loss": 0.9858,
+      "step": 184
+    },
+    {
+      "epoch": 1.5926822706483723,
+      "grad_norm": 0.8605924844741821,
+      "learning_rate": 7.332262643740144e-05,
+      "loss": 0.9036,
+      "step": 185
+    },
+    {
+      "epoch": 1.6012913640032282,
+      "grad_norm": 0.8876140117645264,
+      "learning_rate": 7.303003443710784e-05,
+      "loss": 0.8838,
+      "step": 186
+    },
+    {
+      "epoch": 1.6099004573580844,
+      "grad_norm": 0.9637414216995239,
+      "learning_rate": 7.273653158037151e-05,
+      "loss": 0.828,
+      "step": 187
+    },
+    {
+      "epoch": 1.6185095507129406,
+      "grad_norm": 0.8308393955230713,
+      "learning_rate": 7.244213269461656e-05,
+      "loss": 0.9496,
+      "step": 188
+    },
+    {
+      "epoch": 1.6271186440677967,
+      "grad_norm": 0.8119847178459167,
+      "learning_rate": 7.214685265253351e-05,
+      "loss": 0.9974,
+      "step": 189
+    },
+    {
+      "epoch": 1.6357277374226527,
+      "grad_norm": 0.8133478760719299,
+      "learning_rate": 7.185070637132787e-05,
+      "loss": 0.7914,
+      "step": 190
+    },
+    {
+      "epoch": 1.6443368307775086,
+      "grad_norm": 1.075223445892334,
+      "learning_rate": 7.15537088119665e-05,
+      "loss": 1.095,
+      "step": 191
+    },
+    {
+      "epoch": 1.6529459241323647,
+      "grad_norm": 1.0103572607040405,
+      "learning_rate": 7.12558749784219e-05,
+      "loss": 1.2195,
+      "step": 192
+    },
+    {
+      "epoch": 1.661555017487221,
+      "grad_norm": 1.1441484689712524,
+      "learning_rate": 7.095721991691411e-05,
+      "loss": 1.0929,
+      "step": 193
+    },
+    {
+      "epoch": 1.670164110842077,
+      "grad_norm": 1.2061221599578857,
+      "learning_rate": 7.065775871515072e-05,
+      "loss": 1.1353,
+      "step": 194
+    },
+    {
+      "epoch": 1.678773204196933,
+      "grad_norm": 1.0299855470657349,
+      "learning_rate": 7.035750650156458e-05,
+      "loss": 1.0423,
+      "step": 195
+    },
+    {
+      "epoch": 1.687382297551789,
+      "grad_norm": 0.7968188524246216,
+      "learning_rate": 7.005647844454949e-05,
+      "loss": 1.0405,
+      "step": 196
+    },
+    {
+      "epoch": 1.695991390906645,
+      "grad_norm": 0.7397557497024536,
+      "learning_rate": 6.975468975169402e-05,
+      "loss": 0.9024,
+      "step": 197
+    },
+    {
+      "epoch": 1.7046004842615012,
+      "grad_norm": 0.7559933662414551,
+      "learning_rate": 6.945215566901315e-05,
+      "loss": 0.8593,
+      "step": 198
+    },
+    {
+      "epoch": 1.7132095776163574,
+      "grad_norm": 0.7246858477592468,
+      "learning_rate": 6.914889148017809e-05,
+      "loss": 0.9244,
+      "step": 199
+    },
+    {
+      "epoch": 1.7218186709712133,
+      "grad_norm": 0.6950869560241699,
+      "learning_rate": 6.884491250574415e-05,
+      "loss": 0.797,
+      "step": 200
+    },
+    {
+      "epoch": 1.7218186709712133,
+      "eval_loss": 1.1887668371200562,
+      "eval_runtime": 1.2738,
+      "eval_samples_per_second": 39.253,
+      "eval_steps_per_second": 10.206,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.248409672001782e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null