Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:500b7d86679017f26a81b12036cef970233d88fa32e4105736802155b0006565
 size 186962

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7bf0544d2c8e5bbad64b21ad32b63675954fc63c75f7acf9d78d3d6db71aee1
 size 186962

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811c55a9a87c4efcf23b8f3085966edc844559a65fdd499fb90cf30bb28f1385
 size 121430

 version https://git-lfs.github.com/spec/v1
+oid sha256:16e01d835f42d331a3bf98a4ea5ee134fd63bc37964e3b0b305e18656e3f0a98
 size 121430

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8e3a8816d2e8476ad4dbf331a4534f4c35dc6716c307e5a15ccc43750f60b53
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6bfc76b26aa892b828c220f6ec040e5ec8b4ddb8acac903fb237ec5a85e12d8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad2841b888ce0ae948634757c3fcacf0119c249e0fec8f3ca61ea266369ef92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 6.796112060546875,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.32,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 1098.877,
       "eval_steps_per_second": 153.843,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 626134425600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 6.714487075805664,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.64,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1098.877,
       "eval_steps_per_second": 153.843,
       "step": 50
+    },
+    {
+      "epoch": 0.3264,
+      "grad_norm": 0.4826822578907013,
+      "learning_rate": 0.0002668315918143169,
+      "loss": 6.7629,
+      "step": 51
+    },
+    {
+      "epoch": 0.3328,
+      "grad_norm": 0.508161187171936,
+      "learning_rate": 0.00026526016662852886,
+      "loss": 6.7403,
+      "step": 52
+    },
+    {
+      "epoch": 0.3392,
+      "grad_norm": 0.5200028419494629,
+      "learning_rate": 0.00026365723046405023,
+      "loss": 6.7561,
+      "step": 53
+    },
+    {
+      "epoch": 0.3456,
+      "grad_norm": 0.49363598227500916,
+      "learning_rate": 0.0002620232215476231,
+      "loss": 6.7514,
+      "step": 54
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.46784576773643494,
+      "learning_rate": 0.0002603585866009697,
+      "loss": 6.7524,
+      "step": 55
+    },
+    {
+      "epoch": 0.3584,
+      "grad_norm": 0.46129316091537476,
+      "learning_rate": 0.00025866378071866334,
+      "loss": 6.7433,
+      "step": 56
+    },
+    {
+      "epoch": 0.3648,
+      "grad_norm": 0.5088637471199036,
+      "learning_rate": 0.00025693926724370956,
+      "loss": 6.7277,
+      "step": 57
+    },
+    {
+      "epoch": 0.3712,
+      "grad_norm": 0.5694301724433899,
+      "learning_rate": 0.00025518551764087326,
+      "loss": 6.7277,
+      "step": 58
+    },
+    {
+      "epoch": 0.3776,
+      "grad_norm": 0.41760918498039246,
+      "learning_rate": 0.00025340301136778483,
+      "loss": 6.7531,
+      "step": 59
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.4982942044734955,
+      "learning_rate": 0.00025159223574386114,
+      "loss": 6.729,
+      "step": 60
+    },
+    {
+      "epoch": 0.3904,
+      "grad_norm": 0.4909391701221466,
+      "learning_rate": 0.0002497536858170772,
+      "loss": 6.7228,
+      "step": 61
+    },
+    {
+      "epoch": 0.3968,
+      "grad_norm": 0.5273060202598572,
+      "learning_rate": 0.00024788786422862526,
+      "loss": 6.7134,
+      "step": 62
+    },
+    {
+      "epoch": 0.4032,
+      "grad_norm": 0.4253634512424469,
+      "learning_rate": 0.00024599528107549745,
+      "loss": 6.7223,
+      "step": 63
+    },
+    {
+      "epoch": 0.4096,
+      "grad_norm": 0.47950324416160583,
+      "learning_rate": 0.00024407645377103054,
+      "loss": 6.718,
+      "step": 64
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.46385979652404785,
+      "learning_rate": 0.00024213190690345018,
+      "loss": 6.725,
+      "step": 65
+    },
+    {
+      "epoch": 0.4224,
+      "grad_norm": 0.540244996547699,
+      "learning_rate": 0.00024016217209245374,
+      "loss": 6.7151,
+      "step": 66
+    },
+    {
+      "epoch": 0.4288,
+      "grad_norm": 0.4589102864265442,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 6.7114,
+      "step": 67
+    },
+    {
+      "epoch": 0.4352,
+      "grad_norm": 0.4630209505558014,
+      "learning_rate": 0.0002361492994024415,
+      "loss": 6.7337,
+      "step": 68
+    },
+    {
+      "epoch": 0.4416,
+      "grad_norm": 0.47441697120666504,
+      "learning_rate": 0.0002341072586027509,
+      "loss": 6.7308,
+      "step": 69
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.49404001235961914,
+      "learning_rate": 0.00023204222371836405,
+      "loss": 6.7455,
+      "step": 70
+    },
+    {
+      "epoch": 0.4544,
+      "grad_norm": 0.44997942447662354,
+      "learning_rate": 0.00022995475930919905,
+      "loss": 6.739,
+      "step": 71
+    },
+    {
+      "epoch": 0.4608,
+      "grad_norm": 0.45261090993881226,
+      "learning_rate": 0.00022784543606718227,
+      "loss": 6.7068,
+      "step": 72
+    },
+    {
+      "epoch": 0.4672,
+      "grad_norm": 0.44797801971435547,
+      "learning_rate": 0.00022571483066022657,
+      "loss": 6.7162,
+      "step": 73
+    },
+    {
+      "epoch": 0.4736,
+      "grad_norm": 0.6951871514320374,
+      "learning_rate": 0.0002235635255745762,
+      "loss": 6.7901,
+      "step": 74
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.7108526825904846,
+      "learning_rate": 0.00022139210895556104,
+      "loss": 6.8099,
+      "step": 75
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 6.746245861053467,
+      "eval_runtime": 0.0445,
+      "eval_samples_per_second": 1123.84,
+      "eval_steps_per_second": 157.338,
+      "step": 75
+    },
+    {
+      "epoch": 0.4864,
+      "grad_norm": 0.7808616161346436,
+      "learning_rate": 0.00021920117444680317,
+      "loss": 6.8143,
+      "step": 76
+    },
+    {
+      "epoch": 0.4928,
+      "grad_norm": 0.7759772539138794,
+      "learning_rate": 0.00021699132102792097,
+      "loss": 6.8032,
+      "step": 77
+    },
+    {
+      "epoch": 0.4992,
+      "grad_norm": 1.509546160697937,
+      "learning_rate": 0.0002147631528507739,
+      "loss": 6.7856,
+      "step": 78
+    },
+    {
+      "epoch": 0.5056,
+      "grad_norm": 1.1290587186813354,
+      "learning_rate": 0.00021251727907429355,
+      "loss": 6.8949,
+      "step": 79
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.9573540687561035,
+      "learning_rate": 0.0002102543136979454,
+      "loss": 6.887,
+      "step": 80
+    },
+    {
+      "epoch": 0.5184,
+      "grad_norm": 1.0016741752624512,
+      "learning_rate": 0.0002079748753938678,
+      "loss": 6.8455,
+      "step": 81
+    },
+    {
+      "epoch": 0.5248,
+      "grad_norm": 0.7958142161369324,
+      "learning_rate": 0.0002056795873377331,
+      "loss": 6.7827,
+      "step": 82
+    },
+    {
+      "epoch": 0.5312,
+      "grad_norm": 0.6969197392463684,
+      "learning_rate": 0.00020336907703837748,
+      "loss": 6.7816,
+      "step": 83
+    },
+    {
+      "epoch": 0.5376,
+      "grad_norm": 0.8457598090171814,
+      "learning_rate": 0.00020104397616624645,
+      "loss": 6.7871,
+      "step": 84
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.5099653005599976,
+      "learning_rate": 0.00019870492038070252,
+      "loss": 6.6791,
+      "step": 85
+    },
+    {
+      "epoch": 0.5504,
+      "grad_norm": 0.5534845590591431,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 6.685,
+      "step": 86
+    },
+    {
+      "epoch": 0.5568,
+      "grad_norm": 0.5635961294174194,
+      "learning_rate": 0.0001939875056076697,
+      "loss": 6.694,
+      "step": 87
+    },
+    {
+      "epoch": 0.5632,
+      "grad_norm": 0.5438621640205383,
+      "learning_rate": 0.00019161043631427666,
+      "loss": 6.6969,
+      "step": 88
+    },
+    {
+      "epoch": 0.5696,
+      "grad_norm": 0.5128461122512817,
+      "learning_rate": 0.00018922199114307294,
+      "loss": 6.6693,
+      "step": 89
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.6132482290267944,
+      "learning_rate": 0.00018682282307111987,
+      "loss": 6.6821,
+      "step": 90
+    },
+    {
+      "epoch": 0.5824,
+      "grad_norm": 0.5470501184463501,
+      "learning_rate": 0.00018441358800701273,
+      "loss": 6.6796,
+      "step": 91
+    },
+    {
+      "epoch": 0.5888,
+      "grad_norm": 0.5392007231712341,
+      "learning_rate": 0.00018199494461156203,
+      "loss": 6.6488,
+      "step": 92
+    },
+    {
+      "epoch": 0.5952,
+      "grad_norm": 0.6648130416870117,
+      "learning_rate": 0.000179567554117722,
+      "loss": 6.6436,
+      "step": 93
+    },
+    {
+      "epoch": 0.6016,
+      "grad_norm": 0.6511263847351074,
+      "learning_rate": 0.00017713208014981648,
+      "loss": 6.6311,
+      "step": 94
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.6294538974761963,
+      "learning_rate": 0.00017468918854211007,
+      "loss": 6.627,
+      "step": 95
+    },
+    {
+      "epoch": 0.6144,
+      "grad_norm": 0.48442429304122925,
+      "learning_rate": 0.00017223954715677627,
+      "loss": 6.6497,
+      "step": 96
+    },
+    {
+      "epoch": 0.6208,
+      "grad_norm": 0.5661095976829529,
+      "learning_rate": 0.00016978382570131034,
+      "loss": 6.6348,
+      "step": 97
+    },
+    {
+      "epoch": 0.6272,
+      "grad_norm": 0.47108545899391174,
+      "learning_rate": 0.00016732269554543794,
+      "loss": 6.6478,
+      "step": 98
+    },
+    {
+      "epoch": 0.6336,
+      "grad_norm": 0.43120548129081726,
+      "learning_rate": 0.00016485682953756942,
+      "loss": 6.6553,
+      "step": 99
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.47978243231773376,
+      "learning_rate": 0.00016238690182084986,
+      "loss": 6.6235,
+      "step": 100
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 6.714487075805664,
+      "eval_runtime": 0.0452,
+      "eval_samples_per_second": 1106.805,
+      "eval_steps_per_second": 154.953,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1252268851200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null