Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe44c0c4a1dc511022fe2af1b615e63e9bc4870b0a35d0e747c0d3b5018dc489
 size 54285928

 version https://git-lfs.github.com/spec/v1
+oid sha256:4772adf351f1ce35f37f56782a164c44a3fc1fc46ab46bbd8010c53b3e50bf39
 size 54285928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86cc54f81f14fa1b56e6ef8b76d135dde39c648387b2ed485412251aa9490928
 size 108668858

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a74f6e948d670aef9e3fd660dc4c84219a3f18341d2c44af76e80058b8e941f
 size 108668858

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a26e9e0ae61ca05e193bb601889410a51af9791f2ee0ef08ddefe14a8decc43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7255bd9a0cfa637aa42f1603654591ddd1e84bc45db67f8fc7aa322352d44ac7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ece3236edcb393fe9fe067fb4c27aaaf2d1a125595517cb84b2456d9b62475c0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.247523784637451,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.1718213058419244,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 86.468,
       "eval_steps_per_second": 43.234,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -396,12 +754,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1614908479242240.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.0897529125213623,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.3436426116838488,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 86.468,
       "eval_steps_per_second": 43.234,
       "step": 50
+    },
+    {
+      "epoch": 0.17525773195876287,
+      "grad_norm": 2.528313159942627,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.3671,
+      "step": 51
+    },
+    {
+      "epoch": 0.17869415807560138,
+      "grad_norm": 2.315145969390869,
+      "learning_rate": 7.754484907260513e-05,
+      "loss": 2.3046,
+      "step": 52
+    },
+    {
+      "epoch": 0.18213058419243985,
+      "grad_norm": 1.7192437648773193,
+      "learning_rate": 7.564496387029532e-05,
+      "loss": 2.1694,
+      "step": 53
+    },
+    {
+      "epoch": 0.18556701030927836,
+      "grad_norm": 1.133732557296753,
+      "learning_rate": 7.369343312364993e-05,
+      "loss": 2.1953,
+      "step": 54
+    },
+    {
+      "epoch": 0.18900343642611683,
+      "grad_norm": 0.713290274143219,
+      "learning_rate": 7.169418695587791e-05,
+      "loss": 2.053,
+      "step": 55
+    },
+    {
+      "epoch": 0.19243986254295534,
+      "grad_norm": 0.5978623032569885,
+      "learning_rate": 6.965125158269619e-05,
+      "loss": 2.12,
+      "step": 56
+    },
+    {
+      "epoch": 0.1958762886597938,
+      "grad_norm": 0.5948276519775391,
+      "learning_rate": 6.756874120406714e-05,
+      "loss": 2.1898,
+      "step": 57
+    },
+    {
+      "epoch": 0.19931271477663232,
+      "grad_norm": 0.6025165319442749,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 2.1185,
+      "step": 58
+    },
+    {
+      "epoch": 0.2027491408934708,
+      "grad_norm": 0.5380327105522156,
+      "learning_rate": 6.330184227833376e-05,
+      "loss": 2.0913,
+      "step": 59
+    },
+    {
+      "epoch": 0.20618556701030927,
+      "grad_norm": 0.5481085777282715,
+      "learning_rate": 6.112604669781572e-05,
+      "loss": 1.9754,
+      "step": 60
+    },
+    {
+      "epoch": 0.20962199312714777,
+      "grad_norm": 0.5363459587097168,
+      "learning_rate": 5.8927844739931834e-05,
+      "loss": 2.1673,
+      "step": 61
+    },
+    {
+      "epoch": 0.21305841924398625,
+      "grad_norm": 0.4893956482410431,
+      "learning_rate": 5.6711663290882776e-05,
+      "loss": 2.0366,
+      "step": 62
+    },
+    {
+      "epoch": 0.21649484536082475,
+      "grad_norm": 0.4866885542869568,
+      "learning_rate": 5.448196544517168e-05,
+      "loss": 2.0198,
+      "step": 63
+    },
+    {
+      "epoch": 0.21993127147766323,
+      "grad_norm": 0.4834136664867401,
+      "learning_rate": 5.2243241517525754e-05,
+      "loss": 2.058,
+      "step": 64
+    },
+    {
+      "epoch": 0.22336769759450173,
+      "grad_norm": 0.47863930463790894,
+      "learning_rate": 5e-05,
+      "loss": 2.0112,
+      "step": 65
+    },
+    {
+      "epoch": 0.2268041237113402,
+      "grad_norm": 0.5112380385398865,
+      "learning_rate": 4.775675848247427e-05,
+      "loss": 2.0965,
+      "step": 66
+    },
+    {
+      "epoch": 0.23024054982817868,
+      "grad_norm": 0.4476987421512604,
+      "learning_rate": 4.551803455482833e-05,
+      "loss": 2.013,
+      "step": 67
+    },
+    {
+      "epoch": 0.23367697594501718,
+      "grad_norm": 0.4423470199108124,
+      "learning_rate": 4.328833670911724e-05,
+      "loss": 1.9623,
+      "step": 68
+    },
+    {
+      "epoch": 0.23711340206185566,
+      "grad_norm": 0.4461471140384674,
+      "learning_rate": 4.107215526006817e-05,
+      "loss": 2.0052,
+      "step": 69
+    },
+    {
+      "epoch": 0.24054982817869416,
+      "grad_norm": 0.5078745484352112,
+      "learning_rate": 3.887395330218429e-05,
+      "loss": 2.0747,
+      "step": 70
+    },
+    {
+      "epoch": 0.24398625429553264,
+      "grad_norm": 0.4781670868396759,
+      "learning_rate": 3.6698157721666246e-05,
+      "loss": 2.125,
+      "step": 71
+    },
+    {
+      "epoch": 0.24742268041237114,
+      "grad_norm": 0.47303977608680725,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.9952,
+      "step": 72
+    },
+    {
+      "epoch": 0.2508591065292096,
+      "grad_norm": 0.4364500343799591,
+      "learning_rate": 3.243125879593286e-05,
+      "loss": 2.0303,
+      "step": 73
+    },
+    {
+      "epoch": 0.2542955326460481,
+      "grad_norm": 0.47456878423690796,
+      "learning_rate": 3.0348748417303823e-05,
+      "loss": 2.1002,
+      "step": 74
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 0.4605971872806549,
+      "learning_rate": 2.8305813044122097e-05,
+      "loss": 2.0942,
+      "step": 75
+    },
+    {
+      "epoch": 0.2611683848797251,
+      "grad_norm": 0.4621974229812622,
+      "learning_rate": 2.630656687635007e-05,
+      "loss": 2.0768,
+      "step": 76
+    },
+    {
+      "epoch": 0.2646048109965636,
+      "grad_norm": 0.4659442603588104,
+      "learning_rate": 2.43550361297047e-05,
+      "loss": 2.0493,
+      "step": 77
+    },
+    {
+      "epoch": 0.26804123711340205,
+      "grad_norm": 0.47574934363365173,
+      "learning_rate": 2.245515092739488e-05,
+      "loss": 2.0854,
+      "step": 78
+    },
+    {
+      "epoch": 0.27147766323024053,
+      "grad_norm": 0.46890461444854736,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.0456,
+      "step": 79
+    },
+    {
+      "epoch": 0.27491408934707906,
+      "grad_norm": 0.4491337239742279,
+      "learning_rate": 1.8825509907063327e-05,
+      "loss": 2.0834,
+      "step": 80
+    },
+    {
+      "epoch": 0.27835051546391754,
+      "grad_norm": 0.46741199493408203,
+      "learning_rate": 1.7103063703014372e-05,
+      "loss": 2.0842,
+      "step": 81
+    },
+    {
+      "epoch": 0.281786941580756,
+      "grad_norm": 0.47655144333839417,
+      "learning_rate": 1.544686755065677e-05,
+      "loss": 2.1256,
+      "step": 82
+    },
+    {
+      "epoch": 0.2852233676975945,
+      "grad_norm": 0.45900094509124756,
+      "learning_rate": 1.3860256808630428e-05,
+      "loss": 2.1237,
+      "step": 83
+    },
+    {
+      "epoch": 0.28865979381443296,
+      "grad_norm": 0.4810255169868469,
+      "learning_rate": 1.2346426699819458e-05,
+      "loss": 2.1193,
+      "step": 84
+    },
+    {
+      "epoch": 0.2920962199312715,
+      "grad_norm": 0.4391408860683441,
+      "learning_rate": 1.090842587659851e-05,
+      "loss": 2.0282,
+      "step": 85
+    },
+    {
+      "epoch": 0.29553264604810997,
+      "grad_norm": 0.4718332886695862,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 2.1053,
+      "step": 86
+    },
+    {
+      "epoch": 0.29896907216494845,
+      "grad_norm": 0.48831039667129517,
+      "learning_rate": 8.271337313934869e-06,
+      "loss": 2.0954,
+      "step": 87
+    },
+    {
+      "epoch": 0.3024054982817869,
+      "grad_norm": 0.4913262128829956,
+      "learning_rate": 7.077560319906695e-06,
+      "loss": 1.9763,
+      "step": 88
+    },
+    {
+      "epoch": 0.30584192439862545,
+      "grad_norm": 0.5028262734413147,
+      "learning_rate": 5.9702234071631e-06,
+      "loss": 2.1451,
+      "step": 89
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "grad_norm": 0.5151122808456421,
+      "learning_rate": 4.951556604879048e-06,
+      "loss": 2.1428,
+      "step": 90
+    },
+    {
+      "epoch": 0.3127147766323024,
+      "grad_norm": 0.5513173937797546,
+      "learning_rate": 4.023611372427471e-06,
+      "loss": 2.1041,
+      "step": 91
+    },
+    {
+      "epoch": 0.3161512027491409,
+      "grad_norm": 0.541987955570221,
+      "learning_rate": 3.18825646801314e-06,
+      "loss": 2.2697,
+      "step": 92
+    },
+    {
+      "epoch": 0.31958762886597936,
+      "grad_norm": 0.638981282711029,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 2.2158,
+      "step": 93
+    },
+    {
+      "epoch": 0.3230240549828179,
+      "grad_norm": 0.6572893261909485,
+      "learning_rate": 1.8018569652073381e-06,
+      "loss": 2.1798,
+      "step": 94
+    },
+    {
+      "epoch": 0.32646048109965636,
+      "grad_norm": 0.6969611644744873,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 2.2424,
+      "step": 95
+    },
+    {
+      "epoch": 0.32989690721649484,
+      "grad_norm": 0.7528119087219238,
+      "learning_rate": 8.035205700685167e-07,
+      "loss": 2.1574,
+      "step": 96
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.8161905407905579,
+      "learning_rate": 4.52511911603265e-07,
+      "loss": 2.3423,
+      "step": 97
+    },
+    {
+      "epoch": 0.33676975945017185,
+      "grad_norm": 0.9732829928398132,
+      "learning_rate": 2.012853002380466e-07,
+      "loss": 2.164,
+      "step": 98
+    },
+    {
+      "epoch": 0.3402061855670103,
+      "grad_norm": 1.047484278678894,
+      "learning_rate": 5.0346672934270534e-08,
+      "loss": 2.2618,
+      "step": 99
+    },
+    {
+      "epoch": 0.3436426116838488,
+      "grad_norm": 1.2029303312301636,
+      "learning_rate": 0.0,
+      "loss": 2.36,
+      "step": 100
+    },
+    {
+      "epoch": 0.3436426116838488,
+      "eval_loss": 2.0897529125213623,
+      "eval_runtime": 5.6482,
+      "eval_samples_per_second": 86.753,
+      "eval_steps_per_second": 43.376,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3200049060249600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null