Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76c654ad27de6088d16ec1bd4ea3cc4519cb635a2b7ef006586c122050ffcf11
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:3745ae08fd96959091add45857fc0c1204b7e58ee678be7a69775aab26c0c15e
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc6ae9cde05c62da705e9b95de3b9ea52cb9d23f7013f203239c9554fb46f0cd
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:7edbe26b3c69c06cfc78f50232767ff3f4b1d91b0294ec7c8709d14fbb4801ab
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:702c45c0237a22bb5ce4069004750502f3877aa025892f667028bf6137107874
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:85da9d613aa95222784d5e6613c282f60629c1518f05ec7ea3bed566c111315b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 6.02884578704834,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.04357298474945534,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 11.295,
       "eval_steps_per_second": 5.647,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4762717692821504e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.00246524810791,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.06535947712418301,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.295,
       "eval_steps_per_second": 5.647,
       "step": 100
+    },
+    {
+      "epoch": 0.04400871459694989,
+      "grad_norm": 42.128944396972656,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 5.0307,
+      "step": 101
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 19.087020874023438,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 4.9041,
+      "step": 102
+    },
+    {
+      "epoch": 0.044880174291938996,
+      "grad_norm": 8.862335205078125,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 4.3268,
+      "step": 103
+    },
+    {
+      "epoch": 0.04531590413943355,
+      "grad_norm": 5.625029563903809,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 4.1794,
+      "step": 104
+    },
+    {
+      "epoch": 0.0457516339869281,
+      "grad_norm": 4.465734958648682,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 3.8786,
+      "step": 105
+    },
+    {
+      "epoch": 0.04618736383442266,
+      "grad_norm": 4.2806243896484375,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 3.5648,
+      "step": 106
+    },
+    {
+      "epoch": 0.046623093681917215,
+      "grad_norm": 4.626951217651367,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 3.8994,
+      "step": 107
+    },
+    {
+      "epoch": 0.047058823529411764,
+      "grad_norm": 4.95627498626709,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 3.6665,
+      "step": 108
+    },
+    {
+      "epoch": 0.04749455337690632,
+      "grad_norm": 3.974017858505249,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 3.6386,
+      "step": 109
+    },
+    {
+      "epoch": 0.04793028322440087,
+      "grad_norm": 4.023645877838135,
+      "learning_rate": 5e-05,
+      "loss": 3.4637,
+      "step": 110
+    },
+    {
+      "epoch": 0.048366013071895426,
+      "grad_norm": 3.7657175064086914,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 3.6163,
+      "step": 111
+    },
+    {
+      "epoch": 0.048801742919389976,
+      "grad_norm": 4.199164867401123,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.4856,
+      "step": 112
+    },
+    {
+      "epoch": 0.04923747276688453,
+      "grad_norm": 4.223781108856201,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 3.4757,
+      "step": 113
+    },
+    {
+      "epoch": 0.04967320261437908,
+      "grad_norm": 4.435927867889404,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 3.3169,
+      "step": 114
+    },
+    {
+      "epoch": 0.05010893246187364,
+      "grad_norm": 4.904012680053711,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 3.5495,
+      "step": 115
+    },
+    {
+      "epoch": 0.050544662309368195,
+      "grad_norm": 4.705389022827148,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.0275,
+      "step": 116
+    },
+    {
+      "epoch": 0.050980392156862744,
+      "grad_norm": 5.674432277679443,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 2.4125,
+      "step": 117
+    },
+    {
+      "epoch": 0.0514161220043573,
+      "grad_norm": 5.154523849487305,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.4193,
+      "step": 118
+    },
+    {
+      "epoch": 0.05185185185185185,
+      "grad_norm": 5.284936904907227,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 3.0715,
+      "step": 119
+    },
+    {
+      "epoch": 0.05228758169934641,
+      "grad_norm": 5.14494514465332,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.6556,
+      "step": 120
+    },
+    {
+      "epoch": 0.052723311546840956,
+      "grad_norm": 5.538849353790283,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 3.0354,
+      "step": 121
+    },
+    {
+      "epoch": 0.05315904139433551,
+      "grad_norm": 7.487570285797119,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.9713,
+      "step": 122
+    },
+    {
+      "epoch": 0.05359477124183006,
+      "grad_norm": 8.709990501403809,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 4.0759,
+      "step": 123
+    },
+    {
+      "epoch": 0.05403050108932462,
+      "grad_norm": 8.605923652648926,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 3.5372,
+      "step": 124
+    },
+    {
+      "epoch": 0.054466230936819175,
+      "grad_norm": 8.194428443908691,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 3.3761,
+      "step": 125
+    },
+    {
+      "epoch": 0.054901960784313725,
+      "grad_norm": 8.833706855773926,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.4749,
+      "step": 126
+    },
+    {
+      "epoch": 0.05533769063180828,
+      "grad_norm": 8.356715202331543,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 3.1606,
+      "step": 127
+    },
+    {
+      "epoch": 0.05577342047930283,
+      "grad_norm": 10.272514343261719,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.5981,
+      "step": 128
+    },
+    {
+      "epoch": 0.05620915032679739,
+      "grad_norm": 8.101070404052734,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 3.4551,
+      "step": 129
+    },
+    {
+      "epoch": 0.05664488017429194,
+      "grad_norm": 8.390080451965332,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 3.329,
+      "step": 130
+    },
+    {
+      "epoch": 0.05708061002178649,
+      "grad_norm": 7.999818325042725,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 3.1951,
+      "step": 131
+    },
+    {
+      "epoch": 0.05751633986928104,
+      "grad_norm": 8.268589973449707,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 3.0559,
+      "step": 132
+    },
+    {
+      "epoch": 0.0579520697167756,
+      "grad_norm": 7.182888984680176,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 2.7636,
+      "step": 133
+    },
+    {
+      "epoch": 0.058387799564270156,
+      "grad_norm": 7.375523567199707,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 2.9165,
+      "step": 134
+    },
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 7.143980026245117,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 2.835,
+      "step": 135
+    },
+    {
+      "epoch": 0.05925925925925926,
+      "grad_norm": 7.666155815124512,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.9644,
+      "step": 136
+    },
+    {
+      "epoch": 0.05969498910675381,
+      "grad_norm": 8.490532875061035,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 3.2043,
+      "step": 137
+    },
+    {
+      "epoch": 0.06013071895424837,
+      "grad_norm": 9.01056957244873,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 3.2254,
+      "step": 138
+    },
+    {
+      "epoch": 0.06056644880174292,
+      "grad_norm": 9.418787956237793,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 3.1616,
+      "step": 139
+    },
+    {
+      "epoch": 0.06100217864923747,
+      "grad_norm": 10.980050086975098,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.756,
+      "step": 140
+    },
+    {
+      "epoch": 0.06143790849673202,
+      "grad_norm": 9.275108337402344,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 3.0247,
+      "step": 141
+    },
+    {
+      "epoch": 0.06187363834422658,
+      "grad_norm": 9.312789916992188,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 3.2638,
+      "step": 142
+    },
+    {
+      "epoch": 0.062309368191721136,
+      "grad_norm": 8.673617362976074,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 3.0619,
+      "step": 143
+    },
+    {
+      "epoch": 0.06274509803921569,
+      "grad_norm": 11.994880676269531,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 3.6095,
+      "step": 144
+    },
+    {
+      "epoch": 0.06318082788671024,
+      "grad_norm": 12.651790618896484,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 2.9046,
+      "step": 145
+    },
+    {
+      "epoch": 0.0636165577342048,
+      "grad_norm": 14.072041511535645,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.1311,
+      "step": 146
+    },
+    {
+      "epoch": 0.06405228758169934,
+      "grad_norm": 11.299721717834473,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 3.4079,
+      "step": 147
+    },
+    {
+      "epoch": 0.0644880174291939,
+      "grad_norm": 13.439027786254883,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 3.3159,
+      "step": 148
+    },
+    {
+      "epoch": 0.06492374727668845,
+      "grad_norm": 21.56414222717285,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 4.244,
+      "step": 149
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "grad_norm": 19.723522186279297,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 4.4341,
+      "step": 150
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "eval_loss": 4.00246524810791,
+      "eval_runtime": 342.244,
+      "eval_samples_per_second": 11.296,
+      "eval_steps_per_second": 5.648,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.2107353360891904e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null