Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f30139c3e6d445346dcdf3bf65b041747c7285344052b14d742880d1017ef1f
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fc4ebed7cfce34a86c12a6f8a98f77a9ed7deae72a96d68cf451ff8952c2db5
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ce9714e9d750a4539013ddfaa09d4f4547c29ebae67c70738b7e5f3e32403d
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59a493b76e900a207b5e10f1486c4bf15f8f6b2ff75dae22cfaea902912a45b
 size 1342555602

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5e10010e57371a1b8a59b364051037a27e75dbbd3ba2a8a40601e31fecfb6e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f60cc40ac4a14fc8536d7f4659a3b4045c071476d9e074db26bb28d460c777
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9457f0e49fafeaa4e39070d5a0b76df7f19a0ef84b6d9a330dbda6b3c59bb74
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3228ab812fade3c3337351e2021d33892c0784d2b2ad7070d4ac7502259bbbb7
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2a8d48b1b719399b27c7cd139ee53a77c8f20b06ff1903eba06cd58f41ce5a9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce80c949487a52236cd916ed752ce9a8c3eb5c2bd28c42d897774050919f6620
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f78afd008f544c4d6389a2dadc3ea6f3312ac264009a4d96b2be974f3425696
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c9dfe4a26afc07887f676323b3135c4df6b4c0c8627bcf4c8ec8ed37b83cd09
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.922777533531189,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.08743169398907104,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 32.596,
       "eval_steps_per_second": 4.074,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.940170116071424e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8762643337249756,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.13114754098360656,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.596,
       "eval_steps_per_second": 4.074,
       "step": 100
+    },
+    {
+      "epoch": 0.08830601092896175,
+      "grad_norm": 2.5874650478363037,
+      "learning_rate": 6.279213887972179e-05,
+      "loss": 4.9147,
+      "step": 101
+    },
+    {
+      "epoch": 0.08918032786885247,
+      "grad_norm": 2.5007927417755127,
+      "learning_rate": 6.189675975213094e-05,
+      "loss": 4.7943,
+      "step": 102
+    },
+    {
+      "epoch": 0.09005464480874317,
+      "grad_norm": 2.5372159481048584,
+      "learning_rate": 6.099731789198344e-05,
+      "loss": 4.6289,
+      "step": 103
+    },
+    {
+      "epoch": 0.09092896174863388,
+      "grad_norm": 2.671329975128174,
+      "learning_rate": 6.009412045785051e-05,
+      "loss": 4.3382,
+      "step": 104
+    },
+    {
+      "epoch": 0.09180327868852459,
+      "grad_norm": 2.382216691970825,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 4.4252,
+      "step": 105
+    },
+    {
+      "epoch": 0.09267759562841531,
+      "grad_norm": 3.9462063312530518,
+      "learning_rate": 5.82776938092065e-05,
+      "loss": 1.7697,
+      "step": 106
+    },
+    {
+      "epoch": 0.09355191256830601,
+      "grad_norm": 3.019932985305786,
+      "learning_rate": 5.736508490273188e-05,
+      "loss": 2.4262,
+      "step": 107
+    },
+    {
+      "epoch": 0.09442622950819672,
+      "grad_norm": 3.332878589630127,
+      "learning_rate": 5.644996082651017e-05,
+      "loss": 4.2257,
+      "step": 108
+    },
+    {
+      "epoch": 0.09530054644808743,
+      "grad_norm": 3.230023145675659,
+      "learning_rate": 5.553263409457504e-05,
+      "loss": 4.1084,
+      "step": 109
+    },
+    {
+      "epoch": 0.09617486338797815,
+      "grad_norm": 2.87276029586792,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 3.9562,
+      "step": 110
+    },
+    {
+      "epoch": 0.09704918032786886,
+      "grad_norm": 3.271235227584839,
+      "learning_rate": 5.3692626373743706e-05,
+      "loss": 4.0525,
+      "step": 111
+    },
+    {
+      "epoch": 0.09792349726775956,
+      "grad_norm": 3.6405093669891357,
+      "learning_rate": 5.27705737457985e-05,
+      "loss": 3.5851,
+      "step": 112
+    },
+    {
+      "epoch": 0.09879781420765027,
+      "grad_norm": 2.578488349914551,
+      "learning_rate": 5.184757496945726e-05,
+      "loss": 3.237,
+      "step": 113
+    },
+    {
+      "epoch": 0.09967213114754099,
+      "grad_norm": 2.469647169113159,
+      "learning_rate": 5.092394524795649e-05,
+      "loss": 4.771,
+      "step": 114
+    },
+    {
+      "epoch": 0.1005464480874317,
+      "grad_norm": 2.3568105697631836,
+      "learning_rate": 5e-05,
+      "loss": 4.6737,
+      "step": 115
+    },
+    {
+      "epoch": 0.1014207650273224,
+      "grad_norm": 2.3874001502990723,
+      "learning_rate": 4.907605475204352e-05,
+      "loss": 4.5127,
+      "step": 116
+    },
+    {
+      "epoch": 0.10229508196721311,
+      "grad_norm": 2.6388347148895264,
+      "learning_rate": 4.8152425030542766e-05,
+      "loss": 4.1676,
+      "step": 117
+    },
+    {
+      "epoch": 0.10316939890710383,
+      "grad_norm": 3.294583320617676,
+      "learning_rate": 4.72294262542015e-05,
+      "loss": 4.1412,
+      "step": 118
+    },
+    {
+      "epoch": 0.10404371584699454,
+      "grad_norm": 6.407454967498779,
+      "learning_rate": 4.6307373626256306e-05,
+      "loss": 1.1808,
+      "step": 119
+    },
+    {
+      "epoch": 0.10491803278688525,
+      "grad_norm": 4.188323020935059,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 2.9939,
+      "step": 120
+    },
+    {
+      "epoch": 0.10579234972677595,
+      "grad_norm": 2.9078667163848877,
+      "learning_rate": 4.446736590542497e-05,
+      "loss": 4.1543,
+      "step": 121
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 2.980272054672241,
+      "learning_rate": 4.3550039173489845e-05,
+      "loss": 4.0966,
+      "step": 122
+    },
+    {
+      "epoch": 0.10754098360655738,
+      "grad_norm": 2.8403475284576416,
+      "learning_rate": 4.2634915097268115e-05,
+      "loss": 3.9875,
+      "step": 123
+    },
+    {
+      "epoch": 0.10841530054644809,
+      "grad_norm": 3.1479694843292236,
+      "learning_rate": 4.1722306190793495e-05,
+      "loss": 3.698,
+      "step": 124
+    },
+    {
+      "epoch": 0.1092896174863388,
+      "grad_norm": 2.990969657897949,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 2.8012,
+      "step": 125
+    },
+    {
+      "epoch": 0.11016393442622952,
+      "grad_norm": 2.2755610942840576,
+      "learning_rate": 3.99058795421495e-05,
+      "loss": 4.8265,
+      "step": 126
+    },
+    {
+      "epoch": 0.11103825136612022,
+      "grad_norm": 2.31410551071167,
+      "learning_rate": 3.9002682108016585e-05,
+      "loss": 4.6448,
+      "step": 127
+    },
+    {
+      "epoch": 0.11191256830601093,
+      "grad_norm": 2.463662624359131,
+      "learning_rate": 3.8103240247869075e-05,
+      "loss": 4.5084,
+      "step": 128
+    },
+    {
+      "epoch": 0.11278688524590164,
+      "grad_norm": 2.496032238006592,
+      "learning_rate": 3.720786112027822e-05,
+      "loss": 4.4348,
+      "step": 129
+    },
+    {
+      "epoch": 0.11366120218579236,
+      "grad_norm": 2.351569890975952,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 4.1546,
+      "step": 130
+    },
+    {
+      "epoch": 0.11453551912568306,
+      "grad_norm": 3.018563747406006,
+      "learning_rate": 3.543051265553377e-05,
+      "loss": 1.6488,
+      "step": 131
+    },
+    {
+      "epoch": 0.11540983606557377,
+      "grad_norm": 3.038093090057373,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.8737,
+      "step": 132
+    },
+    {
+      "epoch": 0.11628415300546448,
+      "grad_norm": 2.8064956665039062,
+      "learning_rate": 3.367306435799584e-05,
+      "loss": 4.0904,
+      "step": 133
+    },
+    {
+      "epoch": 0.1171584699453552,
+      "grad_norm": 2.8191850185394287,
+      "learning_rate": 3.2802554068303596e-05,
+      "loss": 4.0826,
+      "step": 134
+    },
+    {
+      "epoch": 0.1180327868852459,
+      "grad_norm": 2.920180559158325,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 4.1058,
+      "step": 135
+    },
+    {
+      "epoch": 0.11890710382513661,
+      "grad_norm": 3.0269107818603516,
+      "learning_rate": 3.107944749788449e-05,
+      "loss": 3.8935,
+      "step": 136
+    },
+    {
+      "epoch": 0.11978142076502732,
+      "grad_norm": 3.5120015144348145,
+      "learning_rate": 3.0227439656472877e-05,
+      "loss": 3.2984,
+      "step": 137
+    },
+    {
+      "epoch": 0.12065573770491804,
+      "grad_norm": 2.480536699295044,
+      "learning_rate": 2.9382184126304834e-05,
+      "loss": 3.3286,
+      "step": 138
+    },
+    {
+      "epoch": 0.12153005464480875,
+      "grad_norm": 2.186405658721924,
+      "learning_rate": 2.8543969561369556e-05,
+      "loss": 4.7104,
+      "step": 139
+    },
+    {
+      "epoch": 0.12240437158469945,
+      "grad_norm": 2.1782374382019043,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 4.5695,
+      "step": 140
+    },
+    {
+      "epoch": 0.12327868852459016,
+      "grad_norm": 2.4011337757110596,
+      "learning_rate": 2.688980582298435e-05,
+      "loss": 4.4038,
+      "step": 141
+    },
+    {
+      "epoch": 0.12415300546448088,
+      "grad_norm": 2.8499345779418945,
+      "learning_rate": 2.607442154493568e-05,
+      "loss": 4.3679,
+      "step": 142
+    },
+    {
+      "epoch": 0.1250273224043716,
+      "grad_norm": 2.359773635864258,
+      "learning_rate": 2.5267207830011068e-05,
+      "loss": 4.1744,
+      "step": 143
+    },
+    {
+      "epoch": 0.1259016393442623,
+      "grad_norm": 2.53583025932312,
+      "learning_rate": 2.446844034095466e-05,
+      "loss": 1.2425,
+      "step": 144
+    },
+    {
+      "epoch": 0.126775956284153,
+      "grad_norm": 2.228820323944092,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 2.4322,
+      "step": 145
+    },
+    {
+      "epoch": 0.1276502732240437,
+      "grad_norm": 2.6025636196136475,
+      "learning_rate": 2.2897332176377528e-05,
+      "loss": 4.0954,
+      "step": 146
+    },
+    {
+      "epoch": 0.12852459016393442,
+      "grad_norm": 2.937838315963745,
+      "learning_rate": 2.2125528032855724e-05,
+      "loss": 4.0482,
+      "step": 147
+    },
+    {
+      "epoch": 0.12939890710382515,
+      "grad_norm": 2.7011358737945557,
+      "learning_rate": 2.136324299597474e-05,
+      "loss": 3.9028,
+      "step": 148
+    },
+    {
+      "epoch": 0.13027322404371586,
+      "grad_norm": 3.2519752979278564,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.5576,
+      "step": 149
+    },
+    {
+      "epoch": 0.13114754098360656,
+      "grad_norm": 3.854916572570801,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 2.6951,
+      "step": 150
+    },
+    {
+      "epoch": 0.13114754098360656,
+      "eval_loss": 0.8762643337249756,
+      "eval_runtime": 236.558,
+      "eval_samples_per_second": 32.567,
+      "eval_steps_per_second": 4.071,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3383423944325857e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null