Training in progress, step 114, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47159059fb382dcd4d40fbb428d89bf3dd755e80340f619f0134f67f4c1227b4
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:91e64200320a6a195854d24d4094d672d6b43bc2da942851476a2d5505324513
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76825cc7a0716b7bd22f7ea323d9db392183f43f53ffa6283fe6c854b826950a
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0449816ff3dc21bd97bee9e273b3bd2ddfb545179435edc1e4779826c4b8822
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d66610bbf3849e4d33837f0f26c218ea8f8d5a6d312408d13439f311da97f100
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec41f20afdc2c3e9b0efc876c1cd4be9b59db158d8a108580028a02a218ca8ff
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecb0c43f77f7e2c8d7164b366fb11f55cae2daf08f4dea1a817d11f101787129
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d30f9e384a1bde4cb88eb41e7604c37401b8069c041cf6ca3c08abcac7465a4f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.527793288230896,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.05224063341768019,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,104 @@
       "eval_samples_per_second": 2.783,
       "eval_steps_per_second": 2.783,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -770,12 +868,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.829010669142016e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.527793288230896,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.05955432209615542,
   "eval_steps": 25,
+  "global_step": 114,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.783,
       "eval_steps_per_second": 2.783,
       "step": 100
+    },
+    {
+      "epoch": 0.05276303975185699,
+      "grad_norm": 80.93624114990234,
+      "learning_rate": 2.61322373709693e-05,
+      "loss": 14.8852,
+      "step": 101
+    },
+    {
+      "epoch": 0.05328544608603379,
+      "grad_norm": 93.81378936767578,
+      "learning_rate": 2.523400727244279e-05,
+      "loss": 19.7007,
+      "step": 102
+    },
+    {
+      "epoch": 0.05380785242021059,
+      "grad_norm": 76.47543334960938,
+      "learning_rate": 2.4404913533436186e-05,
+      "loss": 16.0862,
+      "step": 103
+    },
+    {
+      "epoch": 0.0543302587543874,
+      "grad_norm": 83.75788116455078,
+      "learning_rate": 2.3645632374695246e-05,
+      "loss": 18.1107,
+      "step": 104
+    },
+    {
+      "epoch": 0.0548526650885642,
+      "grad_norm": 97.02025604248047,
+      "learning_rate": 2.295678307682387e-05,
+      "loss": 19.144,
+      "step": 105
+    },
+    {
+      "epoch": 0.055375071422741,
+      "grad_norm": 82.75303649902344,
+      "learning_rate": 2.233892747518999e-05,
+      "loss": 19.5145,
+      "step": 106
+    },
+    {
+      "epoch": 0.0558974777569178,
+      "grad_norm": 67.65582275390625,
+      "learning_rate": 2.179256950168459e-05,
+      "loss": 15.1443,
+      "step": 107
+    },
+    {
+      "epoch": 0.05641988409109461,
+      "grad_norm": 119.88687133789062,
+      "learning_rate": 2.1318154773707632e-05,
+      "loss": 18.0138,
+      "step": 108
+    },
+    {
+      "epoch": 0.05694229042527141,
+      "grad_norm": 78.50994110107422,
+      "learning_rate": 2.0916070230716063e-05,
+      "loss": 15.5937,
+      "step": 109
+    },
+    {
+      "epoch": 0.05746469675944821,
+      "grad_norm": 81.8220443725586,
+      "learning_rate": 2.0586643818630484e-05,
+      "loss": 16.9296,
+      "step": 110
+    },
+    {
+      "epoch": 0.05798710309362501,
+      "grad_norm": 84.6229248046875,
+      "learning_rate": 2.0330144222357784e-05,
+      "loss": 16.015,
+      "step": 111
+    },
+    {
+      "epoch": 0.05850950942780181,
+      "grad_norm": 59.201263427734375,
+      "learning_rate": 2.0146780646647795e-05,
+      "loss": 12.9246,
+      "step": 112
+    },
+    {
+      "epoch": 0.059031915761978616,
+      "grad_norm": 107.85786437988281,
+      "learning_rate": 2.003670264546297e-05,
+      "loss": 15.2457,
+      "step": 113
+    },
+    {
+      "epoch": 0.05955432209615542,
+      "grad_norm": 68.8541030883789,
+      "learning_rate": 2e-05,
+      "loss": 12.7823,
+      "step": 114
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.225072162821898e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null