Training in progress, step 41, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b2bfcedafcc344f64af9cdbbfc55cb04b073ea1ec42ea71b252026144d0455f
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf6126fffde686dfcbc3532bd2cf1253532bdf7ba6d15f2b665561307ed265d9
 size 147770496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b46b173ab74967e1f083128f945b3ddb7b370641e8bbe5c0cea3917003bf167
 size 295765866

 version https://git-lfs.github.com/spec/v1
+oid sha256:29c1de21b09c25a0fa1c648c02c7c79c9bee3a751526be104c0f99494ebb502a
 size 295765866

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2795dd34201d80879fdae9534075e28925d0f3cb9995c23e35d44995c4438a84
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:13260f6b8f540fff6e3379d8f77076b68e1d652988d58c6ffe0bd6c8f4ad1731
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef684d290dc03931acc0a9d28ec9706a8757c9e616acb05899e56cf302011e55
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4770daa8e4d2ce9ed4b41fd9c0d5e0e822ecf67e191a137a035e1c0194331a1
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c76db927c448e69509b909b8146a91c2e3a0ad0520feea5bdab27095ecfde13a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:368d35434d485310fe978f91ee9af6450690f0b42a003dfeba691799bed71e31
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52fa31832e097b51770e36fc6024e3ce24d0780587acf14bf2b94f1e52de04ca
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:243cd0223e3a8ad2ffd15ffa4deebf839b4412e2bc0e9e24a423d0f68e06fa3a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc6b77c0cbcc35c1c43ee60e2766b6027d2e111edae589e45f75af1b1040b32d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:84fc982e8229d2121603832a24f4c07bbdbf63985ed1d38e11762164a04dad3b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.0175485610961914,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 1.8538812785388128,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,118 @@
       "eval_samples_per_second": 85.902,
       "eval_steps_per_second": 11.084,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +333,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.29768176943104e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.0175485610961914,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
+  "epoch": 3.077625570776256,
   "eval_steps": 25,
+  "global_step": 41,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 85.902,
       "eval_steps_per_second": 11.084,
       "step": 25
+    },
+    {
+      "epoch": 1.9269406392694064,
+      "grad_norm": 0.22027455270290375,
+      "learning_rate": 3.226975564787322e-05,
+      "loss": 1.0663,
+      "step": 26
+    },
+    {
+      "epoch": 2.0273972602739727,
+      "grad_norm": 0.2542748749256134,
+      "learning_rate": 2.8565371929847284e-05,
+      "loss": 1.821,
+      "step": 27
+    },
+    {
+      "epoch": 2.1004566210045663,
+      "grad_norm": 0.15314239263534546,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0119,
+      "step": 28
+    },
+    {
+      "epoch": 2.17351598173516,
+      "grad_norm": 0.16169950366020203,
+      "learning_rate": 2.1596762663442218e-05,
+      "loss": 1.0286,
+      "step": 29
+    },
+    {
+      "epoch": 2.2465753424657535,
+      "grad_norm": 0.1641775369644165,
+      "learning_rate": 1.837773122023114e-05,
+      "loss": 0.9043,
+      "step": 30
+    },
+    {
+      "epoch": 2.319634703196347,
+      "grad_norm": 0.16621926426887512,
+      "learning_rate": 1.536378232452003e-05,
+      "loss": 1.2029,
+      "step": 31
+    },
+    {
+      "epoch": 2.3926940639269407,
+      "grad_norm": 0.1616508662700653,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 1.0547,
+      "step": 32
+    },
+    {
+      "epoch": 2.4657534246575343,
+      "grad_norm": 0.1510113924741745,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 0.8809,
+      "step": 33
+    },
+    {
+      "epoch": 2.538812785388128,
+      "grad_norm": 0.1720770299434662,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 1.2133,
+      "step": 34
+    },
+    {
+      "epoch": 2.6118721461187215,
+      "grad_norm": 0.1738651543855667,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 1.0364,
+      "step": 35
+    },
+    {
+      "epoch": 2.684931506849315,
+      "grad_norm": 0.16424569487571716,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 0.9136,
+      "step": 36
+    },
+    {
+      "epoch": 2.7579908675799087,
+      "grad_norm": 0.1603696048259735,
+      "learning_rate": 2.573177902642726e-06,
+      "loss": 1.1305,
+      "step": 37
+    },
+    {
+      "epoch": 2.8310502283105023,
+      "grad_norm": 0.1709257960319519,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 1.0569,
+      "step": 38
+    },
+    {
+      "epoch": 2.904109589041096,
+      "grad_norm": 0.17874523997306824,
+      "learning_rate": 6.474868681043578e-07,
+      "loss": 1.0163,
+      "step": 39
+    },
+    {
+      "epoch": 3.0045662100456623,
+      "grad_norm": 0.21786744892597198,
+      "learning_rate": 1.6213459328950352e-07,
+      "loss": 1.7187,
+      "step": 40
+    },
+    {
+      "epoch": 3.077625570776256,
+      "grad_norm": 0.12653082609176636,
+      "learning_rate": 0.0,
+      "loss": 1.0884,
+      "step": 41
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.688198101866906e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null