Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8360975599d9ee4a4ee411c8f1cc2b0c35825bf8d393ec9c864f89971ffde2ae
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3d7811f0d3c91eb0559d6dd57dbab4cbf46345245cf1dada768a60472fe8396
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49eecbd237b68ad70c577c8ff7e819b7e92e76ef96dd18fb804e48c36028f643
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:3da6d858e7d81bec94e9df9f841ded71cbba3baa78c5d5662bbc2267370154ae
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4539c524f63404b02bfa58cff36e62ce8ae7b9c028d47aa10d725df6f040629c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c9d729ce54890d2b004e8818490177e5625467f75e54adee6318c935eb7ad9
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd125cb9ecad77cadeadabb22b22642cf7e9de35acf800977a895980f38e3788
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:eea2c85c433dc178f7297992565db28a1eab3bd318e64c50f31cc218f4874305
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c3b86c562fbca6ea65842f86630024b1d2de4305e7c472c99265bcc81bc860e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:824a76a21878d4877c2046d8ad58c4e61f8b4afa79156f487f81a3613095e08d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff0435b6c2a8a9add06442eacd037ea4c488f1cd755e7f1185edf5dac8a311c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4174057fda88174f282bba24bb30a94ae554b6014d600262e9ee53ba95563faf
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af0b17754e8379d35b8568fcdfcceb7a1b2d560c454ce4dd5fdb665e8ee0830c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bab2e2e6d5938b4266045afdacf5782a91c8e156838fe5f46422cf8b6d4d279
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7645323276519775,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.7626310772163966,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 178.583,
       "eval_steps_per_second": 46.431,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.44280275468288e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7033360004425049,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 1.1439466158245948,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 178.583,
       "eval_steps_per_second": 46.431,
       "step": 100
+    },
+    {
+      "epoch": 0.7702573879885606,
+      "grad_norm": 0.5027046203613281,
+      "learning_rate": 0.00021970757739067358,
+      "loss": 1.6627,
+      "step": 101
+    },
+    {
+      "epoch": 0.7778836987607245,
+      "grad_norm": 0.4292294681072235,
+      "learning_rate": 0.00021818892540824148,
+      "loss": 1.6495,
+      "step": 102
+    },
+    {
+      "epoch": 0.7855100095328885,
+      "grad_norm": 0.37569937109947205,
+      "learning_rate": 0.00021666226336928708,
+      "loss": 1.6692,
+      "step": 103
+    },
+    {
+      "epoch": 0.7931363203050524,
+      "grad_norm": 0.3786998391151428,
+      "learning_rate": 0.00021512782118349806,
+      "loss": 1.6581,
+      "step": 104
+    },
+    {
+      "epoch": 0.8007626310772163,
+      "grad_norm": 0.36832037568092346,
+      "learning_rate": 0.0002135858299322234,
+      "loss": 1.6714,
+      "step": 105
+    },
+    {
+      "epoch": 0.8083889418493804,
+      "grad_norm": 0.336896687746048,
+      "learning_rate": 0.00021203652183367363,
+      "loss": 1.7207,
+      "step": 106
+    },
+    {
+      "epoch": 0.8160152526215443,
+      "grad_norm": 0.35588911175727844,
+      "learning_rate": 0.00021048013020794968,
+      "loss": 1.7085,
+      "step": 107
+    },
+    {
+      "epoch": 0.8236415633937083,
+      "grad_norm": 0.4056905508041382,
+      "learning_rate": 0.00020891688944190548,
+      "loss": 1.7094,
+      "step": 108
+    },
+    {
+      "epoch": 0.8312678741658722,
+      "grad_norm": 0.40606462955474854,
+      "learning_rate": 0.00020734703495385037,
+      "loss": 1.7239,
+      "step": 109
+    },
+    {
+      "epoch": 0.8388941849380362,
+      "grad_norm": 0.40182796120643616,
+      "learning_rate": 0.0002057708031580958,
+      "loss": 1.7333,
+      "step": 110
+    },
+    {
+      "epoch": 0.8465204957102002,
+      "grad_norm": 0.44995224475860596,
+      "learning_rate": 0.00020418843142935237,
+      "loss": 1.7049,
+      "step": 111
+    },
+    {
+      "epoch": 0.8541468064823642,
+      "grad_norm": 0.4388667047023773,
+      "learning_rate": 0.00020260015806698213,
+      "loss": 1.783,
+      "step": 112
+    },
+    {
+      "epoch": 0.8617731172545281,
+      "grad_norm": 0.44865381717681885,
+      "learning_rate": 0.00020100622225911128,
+      "loss": 1.7508,
+      "step": 113
+    },
+    {
+      "epoch": 0.8693994280266921,
+      "grad_norm": 0.4294881522655487,
+      "learning_rate": 0.00019940686404660947,
+      "loss": 1.6571,
+      "step": 114
+    },
+    {
+      "epoch": 0.877025738798856,
+      "grad_norm": 0.3841921091079712,
+      "learning_rate": 0.00019780232428694063,
+      "loss": 1.695,
+      "step": 115
+    },
+    {
+      "epoch": 0.8846520495710201,
+      "grad_norm": 0.3785157799720764,
+      "learning_rate": 0.0001961928446178906,
+      "loss": 1.6545,
+      "step": 116
+    },
+    {
+      "epoch": 0.892278360343184,
+      "grad_norm": 0.33887144923210144,
+      "learning_rate": 0.00019457866742117737,
+      "loss": 1.6715,
+      "step": 117
+    },
+    {
+      "epoch": 0.899904671115348,
+      "grad_norm": 0.32863056659698486,
+      "learning_rate": 0.00019296003578594948,
+      "loss": 1.6952,
+      "step": 118
+    },
+    {
+      "epoch": 0.9075309818875119,
+      "grad_norm": 0.3387095034122467,
+      "learning_rate": 0.00019133719347217733,
+      "loss": 1.6291,
+      "step": 119
+    },
+    {
+      "epoch": 0.9151572926596759,
+      "grad_norm": 0.3665367066860199,
+      "learning_rate": 0.00018971038487394402,
+      "loss": 1.7321,
+      "step": 120
+    },
+    {
+      "epoch": 0.9227836034318398,
+      "grad_norm": 0.3495505452156067,
+      "learning_rate": 0.00018807985498264066,
+      "loss": 1.6587,
+      "step": 121
+    },
+    {
+      "epoch": 0.9304099142040038,
+      "grad_norm": 0.40355828404426575,
+      "learning_rate": 0.00018644584935007127,
+      "loss": 1.7027,
+      "step": 122
+    },
+    {
+      "epoch": 0.9380362249761678,
+      "grad_norm": 0.4357530474662781,
+      "learning_rate": 0.0001848086140514738,
+      "loss": 1.7724,
+      "step": 123
+    },
+    {
+      "epoch": 0.9456625357483317,
+      "grad_norm": 0.44958412647247314,
+      "learning_rate": 0.000183168395648462,
+      "loss": 1.7454,
+      "step": 124
+    },
+    {
+      "epoch": 0.9532888465204957,
+      "grad_norm": 0.5644071102142334,
+      "learning_rate": 0.00018152544115189416,
+      "loss": 1.8156,
+      "step": 125
+    },
+    {
+      "epoch": 0.9532888465204957,
+      "eval_loss": 1.7262933254241943,
+      "eval_runtime": 0.2797,
+      "eval_samples_per_second": 178.792,
+      "eval_steps_per_second": 46.486,
+      "step": 125
+    },
+    {
+      "epoch": 0.9609151572926596,
+      "grad_norm": 0.45155230164527893,
+      "learning_rate": 0.0001798799979846742,
+      "loss": 1.6338,
+      "step": 126
+    },
+    {
+      "epoch": 0.9685414680648237,
+      "grad_norm": 0.41884180903434753,
+      "learning_rate": 0.00017823231394449072,
+      "loss": 1.6829,
+      "step": 127
+    },
+    {
+      "epoch": 0.9761677788369876,
+      "grad_norm": 0.3723445534706116,
+      "learning_rate": 0.0001765826371664994,
+      "loss": 1.6707,
+      "step": 128
+    },
+    {
+      "epoch": 0.9837940896091516,
+      "grad_norm": 0.3832674026489258,
+      "learning_rate": 0.00017493121608595511,
+      "loss": 1.7397,
+      "step": 129
+    },
+    {
+      "epoch": 0.9914204003813155,
+      "grad_norm": 0.37408822774887085,
+      "learning_rate": 0.00017327829940079817,
+      "loss": 1.6765,
+      "step": 130
+    },
+    {
+      "epoch": 0.9990467111534795,
+      "grad_norm": 0.42527204751968384,
+      "learning_rate": 0.00017162413603420142,
+      "loss": 1.791,
+      "step": 131
+    },
+    {
+      "epoch": 1.0066730219256435,
+      "grad_norm": 1.3834341764450073,
+      "learning_rate": 0.00016996897509708345,
+      "loss": 3.4039,
+      "step": 132
+    },
+    {
+      "epoch": 1.0142993326978074,
+      "grad_norm": 0.43991145491600037,
+      "learning_rate": 0.00016831306585059317,
+      "loss": 1.6506,
+      "step": 133
+    },
+    {
+      "epoch": 1.0219256434699715,
+      "grad_norm": 0.37817224860191345,
+      "learning_rate": 0.0001666566576685722,
+      "loss": 1.5943,
+      "step": 134
+    },
+    {
+      "epoch": 1.0295519542421354,
+      "grad_norm": 0.34133297204971313,
+      "learning_rate": 0.000165,
+      "loss": 1.5756,
+      "step": 135
+    },
+    {
+      "epoch": 1.0371782650142993,
+      "grad_norm": 0.32997646927833557,
+      "learning_rate": 0.0001633433423314278,
+      "loss": 1.6236,
+      "step": 136
+    },
+    {
+      "epoch": 1.0448045757864632,
+      "grad_norm": 0.3591316342353821,
+      "learning_rate": 0.00016168693414940683,
+      "loss": 1.6221,
+      "step": 137
+    },
+    {
+      "epoch": 1.0524308865586272,
+      "grad_norm": 0.3701683580875397,
+      "learning_rate": 0.00016003102490291655,
+      "loss": 1.6099,
+      "step": 138
+    },
+    {
+      "epoch": 1.0600571973307913,
+      "grad_norm": 0.3921620845794678,
+      "learning_rate": 0.00015837586396579858,
+      "loss": 1.6507,
+      "step": 139
+    },
+    {
+      "epoch": 1.0676835081029552,
+      "grad_norm": 0.411425918340683,
+      "learning_rate": 0.00015672170059920183,
+      "loss": 1.6658,
+      "step": 140
+    },
+    {
+      "epoch": 1.0753098188751191,
+      "grad_norm": 0.4283716082572937,
+      "learning_rate": 0.00015506878391404488,
+      "loss": 1.6525,
+      "step": 141
+    },
+    {
+      "epoch": 1.082936129647283,
+      "grad_norm": 0.43306857347488403,
+      "learning_rate": 0.00015341736283350064,
+      "loss": 1.6808,
+      "step": 142
+    },
+    {
+      "epoch": 1.0905624404194472,
+      "grad_norm": 0.46868017315864563,
+      "learning_rate": 0.0001517676860555093,
+      "loss": 1.7022,
+      "step": 143
+    },
+    {
+      "epoch": 1.098188751191611,
+      "grad_norm": 0.3939070403575897,
+      "learning_rate": 0.0001501200020153258,
+      "loss": 1.608,
+      "step": 144
+    },
+    {
+      "epoch": 1.105815061963775,
+      "grad_norm": 0.5079172253608704,
+      "learning_rate": 0.00014847455884810581,
+      "loss": 1.664,
+      "step": 145
+    },
+    {
+      "epoch": 1.113441372735939,
+      "grad_norm": 0.4701906740665436,
+      "learning_rate": 0.00014683160435153796,
+      "loss": 1.5924,
+      "step": 146
+    },
+    {
+      "epoch": 1.121067683508103,
+      "grad_norm": 0.4438985288143158,
+      "learning_rate": 0.00014519138594852615,
+      "loss": 1.6186,
+      "step": 147
+    },
+    {
+      "epoch": 1.128693994280267,
+      "grad_norm": 0.40085965394973755,
+      "learning_rate": 0.00014355415064992873,
+      "loss": 1.6421,
+      "step": 148
+    },
+    {
+      "epoch": 1.1363203050524309,
+      "grad_norm": 0.3875059485435486,
+      "learning_rate": 0.00014192014501735934,
+      "loss": 1.5903,
+      "step": 149
+    },
+    {
+      "epoch": 1.1439466158245948,
+      "grad_norm": 0.3794068992137909,
+      "learning_rate": 0.00014028961512605598,
+      "loss": 1.6741,
+      "step": 150
+    },
+    {
+      "epoch": 1.1439466158245948,
+      "eval_loss": 1.7033360004425049,
+      "eval_runtime": 0.2798,
+      "eval_samples_per_second": 178.678,
+      "eval_steps_per_second": 46.456,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.66420413202432e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null