Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97efde25644ce733034b4eb47814f39b31f4de0df69051a60d92636f50451312
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f6960406493dc43e08dc486675d7bc0de7d041d59c89dfd9fbb07ef59b64e44
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef7ec2ad0192a041371aa1964a96d6270dcecf67aed6e4fb9a23d19a23b90b36
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:415651bc677fa8a43504e8690766b4b40f04c3199e690c34de970c9a833c77bf
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a416455331f137495054250517b3069fa88696bc8153f10063ef17ad6e64d86a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c6817e6a4d659fca10ea9e56af8f37365a6cf5da2f5b3a3c564e42db42bd60e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3684649467468262,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0435777317790609,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.153,
       "eval_steps_per_second": 6.078,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4307262039955866e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3558998107910156,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.06536659766859135,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.153,
       "eval_steps_per_second": 6.078,
       "step": 100
+    },
+    {
+      "epoch": 0.04401350909685151,
+      "grad_norm": 0.6644337177276611,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 1.43,
+      "step": 101
+    },
+    {
+      "epoch": 0.04444928641464212,
+      "grad_norm": 0.6406741142272949,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.4389,
+      "step": 102
+    },
+    {
+      "epoch": 0.04488506373243273,
+      "grad_norm": 0.6088762283325195,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 1.3575,
+      "step": 103
+    },
+    {
+      "epoch": 0.04532084105022333,
+      "grad_norm": 0.5756306052207947,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.2714,
+      "step": 104
+    },
+    {
+      "epoch": 0.045756618368013945,
+      "grad_norm": 0.5706756711006165,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 1.3047,
+      "step": 105
+    },
+    {
+      "epoch": 0.046192395685804556,
+      "grad_norm": 0.6538943648338318,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.4369,
+      "step": 106
+    },
+    {
+      "epoch": 0.04662817300359516,
+      "grad_norm": 0.6861059665679932,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 1.386,
+      "step": 107
+    },
+    {
+      "epoch": 0.04706395032138577,
+      "grad_norm": 0.667604386806488,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.3972,
+      "step": 108
+    },
+    {
+      "epoch": 0.047499727639176384,
+      "grad_norm": 0.5741658210754395,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 1.3382,
+      "step": 109
+    },
+    {
+      "epoch": 0.04793550495696699,
+      "grad_norm": 0.6127682328224182,
+      "learning_rate": 5e-05,
+      "loss": 1.3597,
+      "step": 110
+    },
+    {
+      "epoch": 0.0483712822747576,
+      "grad_norm": 0.6162969470024109,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 1.3884,
+      "step": 111
+    },
+    {
+      "epoch": 0.048807059592548205,
+      "grad_norm": 0.6853535771369934,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.5718,
+      "step": 112
+    },
+    {
+      "epoch": 0.049242836910338816,
+      "grad_norm": 0.6162100434303284,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 1.4271,
+      "step": 113
+    },
+    {
+      "epoch": 0.04967861422812943,
+      "grad_norm": 0.5969780087471008,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.3138,
+      "step": 114
+    },
+    {
+      "epoch": 0.05011439154592003,
+      "grad_norm": 0.563022792339325,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 1.2623,
+      "step": 115
+    },
+    {
+      "epoch": 0.050550168863710644,
+      "grad_norm": 0.658589780330658,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.4113,
+      "step": 116
+    },
+    {
+      "epoch": 0.050985946181501256,
+      "grad_norm": 0.6488298773765564,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 1.4764,
+      "step": 117
+    },
+    {
+      "epoch": 0.05142172349929186,
+      "grad_norm": 0.6470029950141907,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.3366,
+      "step": 118
+    },
+    {
+      "epoch": 0.05185750081708247,
+      "grad_norm": 0.6214532852172852,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 1.3507,
+      "step": 119
+    },
+    {
+      "epoch": 0.05229327813487308,
+      "grad_norm": 0.6346096396446228,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.36,
+      "step": 120
+    },
+    {
+      "epoch": 0.05272905545266369,
+      "grad_norm": 0.6477368474006653,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 1.4248,
+      "step": 121
+    },
+    {
+      "epoch": 0.0531648327704543,
+      "grad_norm": 0.6995759606361389,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.2993,
+      "step": 122
+    },
+    {
+      "epoch": 0.053600610088244904,
+      "grad_norm": 0.6448193788528442,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 1.4006,
+      "step": 123
+    },
+    {
+      "epoch": 0.054036387406035516,
+      "grad_norm": 0.5889584422111511,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.3996,
+      "step": 124
+    },
+    {
+      "epoch": 0.05447216472382613,
+      "grad_norm": 0.6430240869522095,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 1.3608,
+      "step": 125
+    },
+    {
+      "epoch": 0.05490794204161673,
+      "grad_norm": 0.6376746296882629,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.3421,
+      "step": 126
+    },
+    {
+      "epoch": 0.055343719359407344,
+      "grad_norm": 0.6999002695083618,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 1.4008,
+      "step": 127
+    },
+    {
+      "epoch": 0.055779496677197955,
+      "grad_norm": 0.622456431388855,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.3804,
+      "step": 128
+    },
+    {
+      "epoch": 0.05621527399498856,
+      "grad_norm": 0.6279011368751526,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 1.3072,
+      "step": 129
+    },
+    {
+      "epoch": 0.05665105131277917,
+      "grad_norm": 0.612434446811676,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.2956,
+      "step": 130
+    },
+    {
+      "epoch": 0.057086828630569776,
+      "grad_norm": 0.6098705530166626,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 1.3117,
+      "step": 131
+    },
+    {
+      "epoch": 0.05752260594836039,
+      "grad_norm": 0.6360723376274109,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.279,
+      "step": 132
+    },
+    {
+      "epoch": 0.057958383266151,
+      "grad_norm": 0.6856507062911987,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 1.3226,
+      "step": 133
+    },
+    {
+      "epoch": 0.058394160583941604,
+      "grad_norm": 0.6899363994598389,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.3294,
+      "step": 134
+    },
+    {
+      "epoch": 0.058829937901732215,
+      "grad_norm": 0.6617586016654968,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 1.4432,
+      "step": 135
+    },
+    {
+      "epoch": 0.05926571521952283,
+      "grad_norm": 0.712164580821991,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.4219,
+      "step": 136
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 0.6878612637519836,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 1.3542,
+      "step": 137
+    },
+    {
+      "epoch": 0.06013726985510404,
+      "grad_norm": 0.690792977809906,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.319,
+      "step": 138
+    },
+    {
+      "epoch": 0.06057304717289465,
+      "grad_norm": 0.7101471424102783,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 1.3666,
+      "step": 139
+    },
+    {
+      "epoch": 0.06100882449068526,
+      "grad_norm": 0.7041705250740051,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.3118,
+      "step": 140
+    },
+    {
+      "epoch": 0.06144460180847587,
+      "grad_norm": 0.6758811473846436,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 1.2953,
+      "step": 141
+    },
+    {
+      "epoch": 0.061880379126266476,
+      "grad_norm": 0.7130976319313049,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.3082,
+      "step": 142
+    },
+    {
+      "epoch": 0.06231615644405709,
+      "grad_norm": 0.6844936013221741,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 1.2318,
+      "step": 143
+    },
+    {
+      "epoch": 0.06275193376184769,
+      "grad_norm": 0.7062429785728455,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.2312,
+      "step": 144
+    },
+    {
+      "epoch": 0.0631877110796383,
+      "grad_norm": 0.6911125779151917,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 1.288,
+      "step": 145
+    },
+    {
+      "epoch": 0.06362348839742892,
+      "grad_norm": 0.6440110802650452,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.2698,
+      "step": 146
+    },
+    {
+      "epoch": 0.06405926571521953,
+      "grad_norm": 0.6771082878112793,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 1.2934,
+      "step": 147
+    },
+    {
+      "epoch": 0.06449504303301014,
+      "grad_norm": 0.6761582493782043,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.189,
+      "step": 148
+    },
+    {
+      "epoch": 0.06493082035080074,
+      "grad_norm": 0.722388505935669,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 1.3512,
+      "step": 149
+    },
+    {
+      "epoch": 0.06536659766859135,
+      "grad_norm": 0.7161824107170105,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.3205,
+      "step": 150
+    },
+    {
+      "epoch": 0.06536659766859135,
+      "eval_loss": 1.3558998107910156,
+      "eval_runtime": 318.2564,
+      "eval_samples_per_second": 12.144,
+      "eval_steps_per_second": 6.074,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.1443053581080986e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null