Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c54f95b44c35d8bd62ce121fbeef645cbf15b201cb75b5f40891efa299a97fc3
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:43c3946a5a89d36dfa1fc36228b54d7c970649172043020b6e528b995b6b00fe
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7175fd5911f5a67bb3b9739142788a233ed262ccd927a7ea46a574c63b0ee50
 size 90365754

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5301d5597f3da64893b3d9e2e609104f4243ffff9c9302a9bdd9c47057329e6
 size 90365754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e52aff640d5a3d66075cc76aa8f8de7123ebcf80ff659b5fdbc74059972e971e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:819e8f8d7c618e04879ebe16dcdcf92dc0610755b13a10ec192932587c41e3d1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3cf5a6b72aec24b43630a95f66252ceddc36547934caef83f8781b0cbc7b4cc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:df88ad9d29a5b994fc668c3ab662b1d4e6baa321c3f5068caf8ff1c21c6e351d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.03938543424010277,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.91324200913242,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 12.562,
       "eval_steps_per_second": 1.759,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.310961668456448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.004337400663644075,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.8310502283105023,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.562,
       "eval_steps_per_second": 1.759,
       "step": 50
+    },
+    {
+      "epoch": 0.9315068493150684,
+      "grad_norm": 0.7113423347473145,
+      "learning_rate": 0.00019184866590588439,
+      "loss": 0.0168,
+      "step": 51
+    },
+    {
+      "epoch": 0.9497716894977168,
+      "grad_norm": 0.3350503742694855,
+      "learning_rate": 0.00018730348307472824,
+      "loss": 0.0141,
+      "step": 52
+    },
+    {
+      "epoch": 0.9680365296803652,
+      "grad_norm": 0.6726917624473572,
+      "learning_rate": 0.0001827214862094814,
+      "loss": 0.0454,
+      "step": 53
+    },
+    {
+      "epoch": 0.9863013698630136,
+      "grad_norm": 0.31374573707580566,
+      "learning_rate": 0.0001781071971878587,
+      "loss": 0.0138,
+      "step": 54
+    },
+    {
+      "epoch": 1.009132420091324,
+      "grad_norm": 0.6686992049217224,
+      "learning_rate": 0.00017346516975603462,
+      "loss": 0.032,
+      "step": 55
+    },
+    {
+      "epoch": 1.0273972602739727,
+      "grad_norm": 0.4239481985569,
+      "learning_rate": 0.00016879998503464561,
+      "loss": 0.0243,
+      "step": 56
+    },
+    {
+      "epoch": 1.045662100456621,
+      "grad_norm": 0.2905505895614624,
+      "learning_rate": 0.00016411624699777717,
+      "loss": 0.0159,
+      "step": 57
+    },
+    {
+      "epoch": 1.0639269406392695,
+      "grad_norm": 2.1741881370544434,
+      "learning_rate": 0.000159418577929397,
+      "loss": 0.0303,
+      "step": 58
+    },
+    {
+      "epoch": 1.0821917808219177,
+      "grad_norm": 0.6694914102554321,
+      "learning_rate": 0.00015471161386171922,
+      "loss": 0.0176,
+      "step": 59
+    },
+    {
+      "epoch": 1.1004566210045663,
+      "grad_norm": 0.4211752414703369,
+      "learning_rate": 0.00015,
+      "loss": 0.0112,
+      "step": 60
+    },
+    {
+      "epoch": 1.1187214611872145,
+      "grad_norm": 1.0037997961044312,
+      "learning_rate": 0.00014528838613828076,
+      "loss": 0.0202,
+      "step": 61
+    },
+    {
+      "epoch": 1.1369863013698631,
+      "grad_norm": 0.20127694308757782,
+      "learning_rate": 0.000140581422070603,
+      "loss": 0.0052,
+      "step": 62
+    },
+    {
+      "epoch": 1.1552511415525113,
+      "grad_norm": 0.32008397579193115,
+      "learning_rate": 0.00013588375300222283,
+      "loss": 0.0052,
+      "step": 63
+    },
+    {
+      "epoch": 1.17351598173516,
+      "grad_norm": 0.1412021666765213,
+      "learning_rate": 0.00013120001496535433,
+      "loss": 0.0028,
+      "step": 64
+    },
+    {
+      "epoch": 1.191780821917808,
+      "grad_norm": 0.8715978860855103,
+      "learning_rate": 0.00012653483024396533,
+      "loss": 0.0081,
+      "step": 65
+    },
+    {
+      "epoch": 1.2100456621004567,
+      "grad_norm": 0.14639712870121002,
+      "learning_rate": 0.00012189280281214126,
+      "loss": 0.0029,
+      "step": 66
+    },
+    {
+      "epoch": 1.228310502283105,
+      "grad_norm": 0.020685512572526932,
+      "learning_rate": 0.00011727851379051865,
+      "loss": 0.001,
+      "step": 67
+    },
+    {
+      "epoch": 1.2465753424657535,
+      "grad_norm": 0.3620803952217102,
+      "learning_rate": 0.0001126965169252718,
+      "loss": 0.0172,
+      "step": 68
+    },
+    {
+      "epoch": 1.2648401826484017,
+      "grad_norm": 0.3493403494358063,
+      "learning_rate": 0.00010815133409411562,
+      "loss": 0.0116,
+      "step": 69
+    },
+    {
+      "epoch": 1.2831050228310503,
+      "grad_norm": 0.19864076375961304,
+      "learning_rate": 0.0001036474508437579,
+      "loss": 0.0067,
+      "step": 70
+    },
+    {
+      "epoch": 1.3013698630136985,
+      "grad_norm": 0.4525580406188965,
+      "learning_rate": 9.918931196320629e-05,
+      "loss": 0.0112,
+      "step": 71
+    },
+    {
+      "epoch": 1.3196347031963471,
+      "grad_norm": 0.36928990483283997,
+      "learning_rate": 9.47813170972983e-05,
+      "loss": 0.0154,
+      "step": 72
+    },
+    {
+      "epoch": 1.3378995433789953,
+      "grad_norm": 0.3303503394126892,
+      "learning_rate": 9.042781640478291e-05,
+      "loss": 0.0088,
+      "step": 73
+    },
+    {
+      "epoch": 1.356164383561644,
+      "grad_norm": 0.1237182691693306,
+      "learning_rate": 8.613310626523909e-05,
+      "loss": 0.0046,
+      "step": 74
+    },
+    {
+      "epoch": 1.374429223744292,
+      "grad_norm": 0.10325484722852707,
+      "learning_rate": 8.190142503906798e-05,
+      "loss": 0.0028,
+      "step": 75
+    },
+    {
+      "epoch": 1.374429223744292,
+      "eval_loss": 0.006142734084278345,
+      "eval_runtime": 3.4169,
+      "eval_samples_per_second": 14.633,
+      "eval_steps_per_second": 2.049,
+      "step": 75
+    },
+    {
+      "epoch": 1.3926940639269407,
+      "grad_norm": 0.2936699688434601,
+      "learning_rate": 7.773694888474267e-05,
+      "loss": 0.0047,
+      "step": 76
+    },
+    {
+      "epoch": 1.410958904109589,
+      "grad_norm": 0.04170661419630051,
+      "learning_rate": 7.364378763744429e-05,
+      "loss": 0.0015,
+      "step": 77
+    },
+    {
+      "epoch": 1.4292237442922375,
+      "grad_norm": 0.04328185319900513,
+      "learning_rate": 6.962598075315046e-05,
+      "loss": 0.0011,
+      "step": 78
+    },
+    {
+      "epoch": 1.4474885844748857,
+      "grad_norm": 0.11742109060287476,
+      "learning_rate": 6.568749332218044e-05,
+      "loss": 0.0015,
+      "step": 79
+    },
+    {
+      "epoch": 1.4657534246575343,
+      "grad_norm": 0.029690410941839218,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 0.0009,
+      "step": 80
+    },
+    {
+      "epoch": 1.4840182648401825,
+      "grad_norm": 0.5141183733940125,
+      "learning_rate": 5.806394195205356e-05,
+      "loss": 0.0079,
+      "step": 81
+    },
+    {
+      "epoch": 1.5022831050228311,
+      "grad_norm": 0.0738927498459816,
+      "learning_rate": 5.4386401537696536e-05,
+      "loss": 0.0036,
+      "step": 82
+    },
+    {
+      "epoch": 1.5205479452054793,
+      "grad_norm": 0.3400103747844696,
+      "learning_rate": 5.080322020145224e-05,
+      "loss": 0.0093,
+      "step": 83
+    },
+    {
+      "epoch": 1.538812785388128,
+      "grad_norm": 0.16344979405403137,
+      "learning_rate": 4.7317934110696685e-05,
+      "loss": 0.005,
+      "step": 84
+    },
+    {
+      "epoch": 1.5570776255707761,
+      "grad_norm": 0.17904306948184967,
+      "learning_rate": 4.3933982822017876e-05,
+      "loss": 0.0033,
+      "step": 85
+    },
+    {
+      "epoch": 1.5753424657534247,
+      "grad_norm": 0.0942436158657074,
+      "learning_rate": 4.06547058867883e-05,
+      "loss": 0.0069,
+      "step": 86
+    },
+    {
+      "epoch": 1.593607305936073,
+      "grad_norm": 0.144642174243927,
+      "learning_rate": 3.7483339555431055e-05,
+      "loss": 0.0046,
+      "step": 87
+    },
+    {
+      "epoch": 1.6118721461187215,
+      "grad_norm": 0.27809712290763855,
+      "learning_rate": 3.442301358363163e-05,
+      "loss": 0.003,
+      "step": 88
+    },
+    {
+      "epoch": 1.6301369863013697,
+      "grad_norm": 0.021354489028453827,
+      "learning_rate": 3.1476748143646435e-05,
+      "loss": 0.0012,
+      "step": 89
+    },
+    {
+      "epoch": 1.6484018264840183,
+      "grad_norm": 0.019089965149760246,
+      "learning_rate": 2.8647450843757897e-05,
+      "loss": 0.001,
+      "step": 90
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.0716283917427063,
+      "learning_rate": 2.5937913858815708e-05,
+      "loss": 0.0012,
+      "step": 91
+    },
+    {
+      "epoch": 1.6849315068493151,
+      "grad_norm": 0.012859423644840717,
+      "learning_rate": 2.335081117469777e-05,
+      "loss": 0.0007,
+      "step": 92
+    },
+    {
+      "epoch": 1.7031963470319633,
+      "grad_norm": 0.07900480180978775,
+      "learning_rate": 2.0888695949408468e-05,
+      "loss": 0.0011,
+      "step": 93
+    },
+    {
+      "epoch": 1.721461187214612,
+      "grad_norm": 0.06209683418273926,
+      "learning_rate": 1.8553997993420495e-05,
+      "loss": 0.0023,
+      "step": 94
+    },
+    {
+      "epoch": 1.7397260273972601,
+      "grad_norm": 0.08779767155647278,
+      "learning_rate": 1.634902137174483e-05,
+      "loss": 0.0038,
+      "step": 95
+    },
+    {
+      "epoch": 1.7579908675799087,
+      "grad_norm": 0.10400469601154327,
+      "learning_rate": 1.4275942130097096e-05,
+      "loss": 0.0042,
+      "step": 96
+    },
+    {
+      "epoch": 1.776255707762557,
+      "grad_norm": 0.06363116204738617,
+      "learning_rate": 1.2336806147402828e-05,
+      "loss": 0.0019,
+      "step": 97
+    },
+    {
+      "epoch": 1.7945205479452055,
+      "grad_norm": 0.08082360029220581,
+      "learning_rate": 1.0533527116762296e-05,
+      "loss": 0.0018,
+      "step": 98
+    },
+    {
+      "epoch": 1.8127853881278537,
+      "grad_norm": 0.060259874910116196,
+      "learning_rate": 8.867884656866181e-06,
+      "loss": 0.0024,
+      "step": 99
+    },
+    {
+      "epoch": 1.8310502283105023,
+      "grad_norm": 0.08836295455694199,
+      "learning_rate": 7.34152255572697e-06,
+      "loss": 0.0023,
+      "step": 100
+    },
+    {
+      "epoch": 1.8310502283105023,
+      "eval_loss": 0.004337400663644075,
+      "eval_runtime": 3.4882,
+      "eval_samples_per_second": 14.334,
+      "eval_steps_per_second": 2.007,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.637346415365325e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null