Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a8e6dd647c3d8340e2658223407f9e157d2d1706fa443faef3b5891c870f594
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6bcc9fc87a0747220970ee5d4ef8c80dccb955881be154e66e15bbbd4dbf4aa
 size 323014168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36a73eb0c1b97aeb34d9b7c41278f11aa0fc82046e4c0d0251c599e56a349d7f
 size 646253418

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e4c854bb83375aab9cfca883b4fceeb9314d2273c5f4dfb5f457185c1fd8092
 size 646253418

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bd9229b9afab5ec3f2157f6a6d963126da5ecf1a893974298beaf5b6aa69265
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:102a6aa695ee27d4b17ab23e1a4322337dc703b54321ef37656a7e13c8502770
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998dc99b958a371c7b8dc61612fc85abb84e4ef25442c4c9d33fe3cb1b04a0a0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:728dfc83268439186507cc0d32225bb36ac5ffa0c760c055d4ba40d920335144
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49f90282a9821c17605bc189979cc38d97c2dc5b1df1bb04db5009b2fee6b044
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b1cee437e811ecacbb59564495966d17414f9bf1d36bb1107c4838c30b4d5d0
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6180493a30d709a5040b752702d3b35e3f1f10fd7defe63309f65852c9166e3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f2a4e6b050b884c6f5f58044bd33c705cbfa966f67a53b87d9fbba4bcd746f5
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.09295430034399033,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.08798944126704795,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 27.224,
       "eval_steps_per_second": 7.078,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.812028905324544e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08695371448993683,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.1759788825340959,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.224,
       "eval_steps_per_second": 7.078,
       "step": 25
+    },
+    {
+      "epoch": 0.09150901891772988,
+      "grad_norm": 0.40268394351005554,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.1017,
+      "step": 26
+    },
+    {
+      "epoch": 0.0950285965684118,
+      "grad_norm": 0.3160291016101837,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 0.1101,
+      "step": 27
+    },
+    {
+      "epoch": 0.0985481742190937,
+      "grad_norm": 0.07668313384056091,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 0.1038,
+      "step": 28
+    },
+    {
+      "epoch": 0.10206775186977562,
+      "grad_norm": 0.24542756378650665,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 0.1077,
+      "step": 29
+    },
+    {
+      "epoch": 0.10558732952045755,
+      "grad_norm": 0.2892981767654419,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 0.108,
+      "step": 30
+    },
+    {
+      "epoch": 0.10910690717113947,
+      "grad_norm": 0.1468868851661682,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 0.0987,
+      "step": 31
+    },
+    {
+      "epoch": 0.11262648482182139,
+      "grad_norm": 0.06367430090904236,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.1001,
+      "step": 32
+    },
+    {
+      "epoch": 0.1161460624725033,
+      "grad_norm": 0.13880383968353271,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 0.0972,
+      "step": 33
+    },
+    {
+      "epoch": 0.11966564012318522,
+      "grad_norm": 0.07297297567129135,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 0.0942,
+      "step": 34
+    },
+    {
+      "epoch": 0.12318521777386714,
+      "grad_norm": 0.09036003053188324,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 0.0938,
+      "step": 35
+    },
+    {
+      "epoch": 0.12670479542454904,
+      "grad_norm": 0.06856901943683624,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 0.0921,
+      "step": 36
+    },
+    {
+      "epoch": 0.13022437307523096,
+      "grad_norm": 0.15229707956314087,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 0.088,
+      "step": 37
+    },
+    {
+      "epoch": 0.13374395072591289,
+      "grad_norm": 0.14902161061763763,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 0.0885,
+      "step": 38
+    },
+    {
+      "epoch": 0.1372635283765948,
+      "grad_norm": 0.18551306426525116,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 0.1012,
+      "step": 39
+    },
+    {
+      "epoch": 0.14078310602727673,
+      "grad_norm": 0.17542138695716858,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 0.0988,
+      "step": 40
+    },
+    {
+      "epoch": 0.14430268367795865,
+      "grad_norm": 0.05021262913942337,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 0.098,
+      "step": 41
+    },
+    {
+      "epoch": 0.14782226132864057,
+      "grad_norm": 0.07619772106409073,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 0.1022,
+      "step": 42
+    },
+    {
+      "epoch": 0.1513418389793225,
+      "grad_norm": 0.08549729734659195,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 0.0973,
+      "step": 43
+    },
+    {
+      "epoch": 0.1548614166300044,
+      "grad_norm": 0.16657781600952148,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 0.1013,
+      "step": 44
+    },
+    {
+      "epoch": 0.1583809942806863,
+      "grad_norm": 0.06948012858629227,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 0.0929,
+      "step": 45
+    },
+    {
+      "epoch": 0.16190057193136823,
+      "grad_norm": 0.13890503346920013,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 0.0926,
+      "step": 46
+    },
+    {
+      "epoch": 0.16542014958205015,
+      "grad_norm": 0.14210690557956696,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 0.0889,
+      "step": 47
+    },
+    {
+      "epoch": 0.16893972723273207,
+      "grad_norm": 0.19957098364830017,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 0.0907,
+      "step": 48
+    },
+    {
+      "epoch": 0.172459304883414,
+      "grad_norm": 0.1634853184223175,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 0.0877,
+      "step": 49
+    },
+    {
+      "epoch": 0.1759788825340959,
+      "grad_norm": 0.17324256896972656,
+      "learning_rate": 1e-05,
+      "loss": 0.0856,
+      "step": 50
+    },
+    {
+      "epoch": 0.1759788825340959,
+      "eval_loss": 0.08695371448993683,
+      "eval_runtime": 1.8302,
+      "eval_samples_per_second": 27.319,
+      "eval_steps_per_second": 7.103,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.624057810649088e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null