Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +155 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dff8e9648a181521563cd2c06b216c20674c53129b91f4e30fe648660ed514d6
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1a3787cc1d2a3960f00ca0c5b66c6dd4ff41d7324bd299aadcac7459ea8c099
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd08307cf03ac19299af59cb7ad10e1c265d9a417ae1d181bddb3541af024831
 size 1925070764

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a95a4e858f09457edb963cf83b8981e6338abbab0762c9a560a5d5242aedb72
 size 1925070764

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7036c9e83c0a40e3eae7c28323a1ccbf94a9756c65c84f64364a471049656fc9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d30912ac1337a75f3290dd2f00c6220273cdcb51a36b541da912118f267733f2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a40ecfa3f3fd838108dc1603326181f7cc7fa9cd66a24dab20698df0575be28
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04fe46db27f239a414db1d5d90722d80220853d3e644018ca60e784cd72b6710
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 88.17781184134891,
-  "best_model_checkpoint": "./whisper-small-ha-adam-v4/checkpoint-500",
-  "epoch": 3.1847133757961785,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,156 @@
       "eval_wer": 88.17781184134891,
       "eval_wer_ortho": 90.4296875,
       "step": 500
     }
   ],
   "logging_steps": 25,
@@ -176,7 +326,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.30522017775616e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 81.14581337420962,
+  "best_model_checkpoint": "./whisper-small-ha-adam-v4/checkpoint-1000",
+  "epoch": 6.369426751592357,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 88.17781184134891,
       "eval_wer_ortho": 90.4296875,
       "step": 500
+    },
+    {
+      "epoch": 3.343949044585987,
+      "grad_norm": 4.324921607971191,
+      "learning_rate": 5e-05,
+      "loss": 0.1136,
+      "step": 525
+    },
+    {
+      "epoch": 3.5031847133757963,
+      "grad_norm": 3.88926100730896,
+      "learning_rate": 5e-05,
+      "loss": 0.117,
+      "step": 550
+    },
+    {
+      "epoch": 3.662420382165605,
+      "grad_norm": 4.270689964294434,
+      "learning_rate": 5e-05,
+      "loss": 0.1093,
+      "step": 575
+    },
+    {
+      "epoch": 3.821656050955414,
+      "grad_norm": 5.100738048553467,
+      "learning_rate": 5e-05,
+      "loss": 0.1185,
+      "step": 600
+    },
+    {
+      "epoch": 3.980891719745223,
+      "grad_norm": 5.05330753326416,
+      "learning_rate": 5e-05,
+      "loss": 0.1377,
+      "step": 625
+    },
+    {
+      "epoch": 4.140127388535032,
+      "grad_norm": 3.5940771102905273,
+      "learning_rate": 5e-05,
+      "loss": 0.0823,
+      "step": 650
+    },
+    {
+      "epoch": 4.2993630573248405,
+      "grad_norm": 3.304124355316162,
+      "learning_rate": 5e-05,
+      "loss": 0.0763,
+      "step": 675
+    },
+    {
+      "epoch": 4.45859872611465,
+      "grad_norm": 3.3643264770507812,
+      "learning_rate": 5e-05,
+      "loss": 0.0758,
+      "step": 700
+    },
+    {
+      "epoch": 4.617834394904459,
+      "grad_norm": 3.0554709434509277,
+      "learning_rate": 5e-05,
+      "loss": 0.084,
+      "step": 725
+    },
+    {
+      "epoch": 4.777070063694268,
+      "grad_norm": 5.5209174156188965,
+      "learning_rate": 5e-05,
+      "loss": 0.0816,
+      "step": 750
+    },
+    {
+      "epoch": 4.936305732484076,
+      "grad_norm": 5.73225736618042,
+      "learning_rate": 5e-05,
+      "loss": 0.1064,
+      "step": 775
+    },
+    {
+      "epoch": 5.095541401273885,
+      "grad_norm": 2.312955379486084,
+      "learning_rate": 5e-05,
+      "loss": 0.0697,
+      "step": 800
+    },
+    {
+      "epoch": 5.254777070063694,
+      "grad_norm": 5.729402542114258,
+      "learning_rate": 5e-05,
+      "loss": 0.0639,
+      "step": 825
+    },
+    {
+      "epoch": 5.414012738853503,
+      "grad_norm": 3.784353733062744,
+      "learning_rate": 5e-05,
+      "loss": 0.0733,
+      "step": 850
+    },
+    {
+      "epoch": 5.573248407643312,
+      "grad_norm": 2.1651360988616943,
+      "learning_rate": 5e-05,
+      "loss": 0.0774,
+      "step": 875
+    },
+    {
+      "epoch": 5.732484076433121,
+      "grad_norm": 4.008174419403076,
+      "learning_rate": 5e-05,
+      "loss": 0.0653,
+      "step": 900
+    },
+    {
+      "epoch": 5.89171974522293,
+      "grad_norm": 4.1395978927612305,
+      "learning_rate": 5e-05,
+      "loss": 0.0892,
+      "step": 925
+    },
+    {
+      "epoch": 6.050955414012739,
+      "grad_norm": 3.262603998184204,
+      "learning_rate": 5e-05,
+      "loss": 0.0573,
+      "step": 950
+    },
+    {
+      "epoch": 6.210191082802548,
+      "grad_norm": 2.6815080642700195,
+      "learning_rate": 5e-05,
+      "loss": 0.0646,
+      "step": 975
+    },
+    {
+      "epoch": 6.369426751592357,
+      "grad_norm": 1.4305006265640259,
+      "learning_rate": 5e-05,
+      "loss": 0.0468,
+      "step": 1000
+    },
+    {
+      "epoch": 6.369426751592357,
+      "eval_loss": 1.959425926208496,
+      "eval_runtime": 259.4756,
+      "eval_samples_per_second": 2.544,
+      "eval_steps_per_second": 0.162,
+      "eval_wer": 81.14581337420962,
+      "eval_wer_ortho": 82.83203125,
+      "step": 1000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.61044035551232e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null