Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09fb250b06bbb1bfa4b5dc44b5027290cb484653be8d363c75bc7945cec145eb
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:cab56aaa5810fb910c7e9e236025f9c97797db338006927c1f59849c5cf914b4
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:002d2711d56463fa9bd7440fce884db83c58026343ccc1d6a88c3b7944d6cc2a
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aabab1826befe4f2cbbb925ab2f17b61e7a27b7b34174912f7335b0b59c3342
 size 101184122

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f439937381434f1d39ca014704c9421760ad2a0ea9d65eb860af1f80030da136
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e15669b74a9459ea8f38adb6ce534bdd9e5864aca0db86a3caf5a0987ebfa396
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.48794320225715637,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.1422981145499822,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 31.457,
       "eval_steps_per_second": 4.404,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1928771621748736e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4293454885482788,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.21344717182497333,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 31.457,
       "eval_steps_per_second": 4.404,
       "step": 100
+    },
+    {
+      "epoch": 0.14372109569548203,
+      "grad_norm": 0.5918603539466858,
+      "learning_rate": 0.0001599135876488549,
+      "loss": 0.6081,
+      "step": 101
+    },
+    {
+      "epoch": 0.14514407684098185,
+      "grad_norm": 0.814773440361023,
+      "learning_rate": 0.00015743756320098332,
+      "loss": 0.7945,
+      "step": 102
+    },
+    {
+      "epoch": 0.14656705798648167,
+      "grad_norm": 0.5480428338050842,
+      "learning_rate": 0.0001549595053975962,
+      "loss": 0.4602,
+      "step": 103
+    },
+    {
+      "epoch": 0.1479900391319815,
+      "grad_norm": 0.4311855435371399,
+      "learning_rate": 0.00015248009171495378,
+      "loss": 0.3792,
+      "step": 104
+    },
+    {
+      "epoch": 0.14941302027748132,
+      "grad_norm": 0.5230007171630859,
+      "learning_rate": 0.00015,
+      "loss": 0.4123,
+      "step": 105
+    },
+    {
+      "epoch": 0.15083600142298115,
+      "grad_norm": 0.4562471807003021,
+      "learning_rate": 0.00014751990828504622,
+      "loss": 0.4171,
+      "step": 106
+    },
+    {
+      "epoch": 0.15225898256848097,
+      "grad_norm": 0.464626282453537,
+      "learning_rate": 0.00014504049460240375,
+      "loss": 0.3999,
+      "step": 107
+    },
+    {
+      "epoch": 0.1536819637139808,
+      "grad_norm": 0.4413895606994629,
+      "learning_rate": 0.00014256243679901663,
+      "loss": 0.4036,
+      "step": 108
+    },
+    {
+      "epoch": 0.15510494485948062,
+      "grad_norm": 0.4271002411842346,
+      "learning_rate": 0.00014008641235114508,
+      "loss": 0.4165,
+      "step": 109
+    },
+    {
+      "epoch": 0.15652792600498044,
+      "grad_norm": 0.4437054395675659,
+      "learning_rate": 0.00013761309817915014,
+      "loss": 0.385,
+      "step": 110
+    },
+    {
+      "epoch": 0.15795090715048027,
+      "grad_norm": 0.6215757727622986,
+      "learning_rate": 0.00013514317046243058,
+      "loss": 0.4807,
+      "step": 111
+    },
+    {
+      "epoch": 0.15937388829598007,
+      "grad_norm": 0.6023930311203003,
+      "learning_rate": 0.00013267730445456208,
+      "loss": 0.4458,
+      "step": 112
+    },
+    {
+      "epoch": 0.1607968694414799,
+      "grad_norm": 0.5075235366821289,
+      "learning_rate": 0.00013021617429868963,
+      "loss": 0.4103,
+      "step": 113
+    },
+    {
+      "epoch": 0.1622198505869797,
+      "grad_norm": 0.4037129580974579,
+      "learning_rate": 0.00012776045284322368,
+      "loss": 0.4037,
+      "step": 114
+    },
+    {
+      "epoch": 0.16364283173247954,
+      "grad_norm": 0.4262774884700775,
+      "learning_rate": 0.00012531081145788987,
+      "loss": 0.3738,
+      "step": 115
+    },
+    {
+      "epoch": 0.16506581287797936,
+      "grad_norm": 0.38689273595809937,
+      "learning_rate": 0.00012286791985018355,
+      "loss": 0.4016,
+      "step": 116
+    },
+    {
+      "epoch": 0.1664887940234792,
+      "grad_norm": 0.45144420862197876,
+      "learning_rate": 0.00012043244588227796,
+      "loss": 0.4268,
+      "step": 117
+    },
+    {
+      "epoch": 0.167911775168979,
+      "grad_norm": 0.35227862000465393,
+      "learning_rate": 0.00011800505538843798,
+      "loss": 0.3679,
+      "step": 118
+    },
+    {
+      "epoch": 0.16933475631447883,
+      "grad_norm": 0.4991707503795624,
+      "learning_rate": 0.00011558641199298727,
+      "loss": 0.4614,
+      "step": 119
+    },
+    {
+      "epoch": 0.17075773745997866,
+      "grad_norm": 0.37295737862586975,
+      "learning_rate": 0.00011317717692888012,
+      "loss": 0.4173,
+      "step": 120
+    },
+    {
+      "epoch": 0.17218071860547848,
+      "grad_norm": 0.3991025686264038,
+      "learning_rate": 0.00011077800885692702,
+      "loss": 0.4005,
+      "step": 121
+    },
+    {
+      "epoch": 0.1736036997509783,
+      "grad_norm": 0.444135844707489,
+      "learning_rate": 0.00010838956368572334,
+      "loss": 0.3766,
+      "step": 122
+    },
+    {
+      "epoch": 0.17502668089647813,
+      "grad_norm": 0.45515337586402893,
+      "learning_rate": 0.0001060124943923303,
+      "loss": 0.3954,
+      "step": 123
+    },
+    {
+      "epoch": 0.17644966204197796,
+      "grad_norm": 0.5047637820243835,
+      "learning_rate": 0.0001036474508437579,
+      "loss": 0.427,
+      "step": 124
+    },
+    {
+      "epoch": 0.17787264318747775,
+      "grad_norm": 0.4614162743091583,
+      "learning_rate": 0.00010129507961929748,
+      "loss": 0.4422,
+      "step": 125
+    },
+    {
+      "epoch": 0.17787264318747775,
+      "eval_loss": 0.4491093158721924,
+      "eval_runtime": 1.5932,
+      "eval_samples_per_second": 31.383,
+      "eval_steps_per_second": 4.394,
+      "step": 125
+    },
+    {
+      "epoch": 0.17929562433297758,
+      "grad_norm": 0.39532631635665894,
+      "learning_rate": 9.895602383375353e-05,
+      "loss": 0.3954,
+      "step": 126
+    },
+    {
+      "epoch": 0.1807186054784774,
+      "grad_norm": 0.4130837321281433,
+      "learning_rate": 9.663092296162251e-05,
+      "loss": 0.3957,
+      "step": 127
+    },
+    {
+      "epoch": 0.18214158662397723,
+      "grad_norm": 0.4563869833946228,
+      "learning_rate": 9.432041266226686e-05,
+      "loss": 0.4121,
+      "step": 128
+    },
+    {
+      "epoch": 0.18356456776947705,
+      "grad_norm": 0.4387674629688263,
+      "learning_rate": 9.202512460613219e-05,
+      "loss": 0.3886,
+      "step": 129
+    },
+    {
+      "epoch": 0.18498754891497687,
+      "grad_norm": 0.49771103262901306,
+      "learning_rate": 8.97456863020546e-05,
+      "loss": 0.3902,
+      "step": 130
+    },
+    {
+      "epoch": 0.1864105300604767,
+      "grad_norm": 0.5475918650627136,
+      "learning_rate": 8.748272092570646e-05,
+      "loss": 0.4373,
+      "step": 131
+    },
+    {
+      "epoch": 0.18783351120597652,
+      "grad_norm": 0.49682438373565674,
+      "learning_rate": 8.523684714922608e-05,
+      "loss": 0.4013,
+      "step": 132
+    },
+    {
+      "epoch": 0.18925649235147635,
+      "grad_norm": 0.4471288025379181,
+      "learning_rate": 8.300867897207903e-05,
+      "loss": 0.4139,
+      "step": 133
+    },
+    {
+      "epoch": 0.19067947349697617,
+      "grad_norm": 0.41703081130981445,
+      "learning_rate": 8.079882555319684e-05,
+      "loss": 0.4089,
+      "step": 134
+    },
+    {
+      "epoch": 0.192102454642476,
+      "grad_norm": 0.5421717166900635,
+      "learning_rate": 7.860789104443896e-05,
+      "loss": 0.4213,
+      "step": 135
+    },
+    {
+      "epoch": 0.19352543578797582,
+      "grad_norm": 0.3587832450866699,
+      "learning_rate": 7.643647442542382e-05,
+      "loss": 0.3714,
+      "step": 136
+    },
+    {
+      "epoch": 0.19494841693347564,
+      "grad_norm": 0.42268967628479004,
+      "learning_rate": 7.428516933977347e-05,
+      "loss": 0.391,
+      "step": 137
+    },
+    {
+      "epoch": 0.19637139807897544,
+      "grad_norm": 0.45539185404777527,
+      "learning_rate": 7.215456393281776e-05,
+      "loss": 0.3907,
+      "step": 138
+    },
+    {
+      "epoch": 0.19779437922447526,
+      "grad_norm": 0.5193498134613037,
+      "learning_rate": 7.004524069080096e-05,
+      "loss": 0.4293,
+      "step": 139
+    },
+    {
+      "epoch": 0.1992173603699751,
+      "grad_norm": 0.49450474977493286,
+      "learning_rate": 6.795777628163599e-05,
+      "loss": 0.3975,
+      "step": 140
+    },
+    {
+      "epoch": 0.2006403415154749,
+      "grad_norm": 0.5141414403915405,
+      "learning_rate": 6.58927413972491e-05,
+      "loss": 0.3932,
+      "step": 141
+    },
+    {
+      "epoch": 0.20206332266097474,
+      "grad_norm": 0.5565205216407776,
+      "learning_rate": 6.385070059755846e-05,
+      "loss": 0.4097,
+      "step": 142
+    },
+    {
+      "epoch": 0.20348630380647456,
+      "grad_norm": 0.5086135864257812,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 0.4553,
+      "step": 143
+    },
+    {
+      "epoch": 0.20490928495197439,
+      "grad_norm": 0.43909886479377747,
+      "learning_rate": 5.983782790754623e-05,
+      "loss": 0.4142,
+      "step": 144
+    },
+    {
+      "epoch": 0.2063322660974742,
+      "grad_norm": 0.4421076774597168,
+      "learning_rate": 5.786809309654982e-05,
+      "loss": 0.3916,
+      "step": 145
+    },
+    {
+      "epoch": 0.20775524724297403,
+      "grad_norm": 0.5867587327957153,
+      "learning_rate": 5.592354622896944e-05,
+      "loss": 0.4844,
+      "step": 146
+    },
+    {
+      "epoch": 0.20917822838847386,
+      "grad_norm": 0.4880177080631256,
+      "learning_rate": 5.40047189245025e-05,
+      "loss": 0.4324,
+      "step": 147
+    },
+    {
+      "epoch": 0.21060120953397368,
+      "grad_norm": 0.5578730702400208,
+      "learning_rate": 5.211213577137469e-05,
+      "loss": 0.4769,
+      "step": 148
+    },
+    {
+      "epoch": 0.2120241906794735,
+      "grad_norm": 0.5823155045509338,
+      "learning_rate": 5.024631418292274e-05,
+      "loss": 0.5011,
+      "step": 149
+    },
+    {
+      "epoch": 0.21344717182497333,
+      "grad_norm": 1.0556669235229492,
+      "learning_rate": 4.840776425613886e-05,
+      "loss": 0.6444,
+      "step": 150
+    },
+    {
+      "epoch": 0.21344717182497333,
+      "eval_loss": 0.4293454885482788,
+      "eval_runtime": 1.5889,
+      "eval_samples_per_second": 31.468,
+      "eval_steps_per_second": 4.406,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.292050004063027e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null