Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09b1576cc961a58ac323dc5821a7971ab4e1659d8ccda4dd695d24372d001011
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:60c51c064e5c363ce55c4f214b55cc7b34dd13f5482e23161fd6bdfc23eccc8e
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4bf356ca7d0fced26307bc5262ea3dbb16474dacd7db51680f175b28a5cc5de
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed67721bde5e85674796591dd1a2f413948c4e0de7194b41026aa33c4565c31c
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f96556c91f78b167a3a23f1c3f779be5f90901a0a97f9cd4811d2ba7a3f74c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b23f626a7efa36d01f5e36f3f34d543aac465661afc2ed75e47913bc2ba74c7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a4ea870e9c13e7b2891e6dcdeeb66805f2a1e6510caa89ebe81fc5367782860
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0156de1a515aee280f9e738b93c0abc7f16dc35823da8e9f1da1d3d98812de71
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 98.0078125,
   "best_model_checkpoint": "./whisper-small-ha-v9/checkpoint-1000",
-  "epoch": 9.554140127388536,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,6 +457,156 @@
       "eval_wer": 107.6171875,
       "eval_wer_ortho": 108.7373059973175,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -476,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.91566053326848e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 98.0078125,
   "best_model_checkpoint": "./whisper-small-ha-v9/checkpoint-1000",
+  "epoch": 12.738853503184714,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 107.6171875,
       "eval_wer_ortho": 108.7373059973175,
       "step": 1500
+    },
+    {
+      "epoch": 9.713375796178344,
+      "grad_norm": 5.215830326080322,
+      "learning_rate": 0.0005,
+      "loss": 1.0183,
+      "step": 1525
+    },
+    {
+      "epoch": 9.872611464968152,
+      "grad_norm": 4.925009250640869,
+      "learning_rate": 0.0005,
+      "loss": 1.0158,
+      "step": 1550
+    },
+    {
+      "epoch": 10.031847133757962,
+      "grad_norm": 5.344029903411865,
+      "learning_rate": 0.0005,
+      "loss": 1.0167,
+      "step": 1575
+    },
+    {
+      "epoch": 10.19108280254777,
+      "grad_norm": 5.701788902282715,
+      "learning_rate": 0.0005,
+      "loss": 0.8659,
+      "step": 1600
+    },
+    {
+      "epoch": 10.35031847133758,
+      "grad_norm": 5.5644707679748535,
+      "learning_rate": 0.0005,
+      "loss": 0.9147,
+      "step": 1625
+    },
+    {
+      "epoch": 10.509554140127388,
+      "grad_norm": 5.331553936004639,
+      "learning_rate": 0.0005,
+      "loss": 0.9256,
+      "step": 1650
+    },
+    {
+      "epoch": 10.668789808917197,
+      "grad_norm": 5.594724655151367,
+      "learning_rate": 0.0005,
+      "loss": 0.9863,
+      "step": 1675
+    },
+    {
+      "epoch": 10.828025477707007,
+      "grad_norm": 5.949446201324463,
+      "learning_rate": 0.0005,
+      "loss": 0.9587,
+      "step": 1700
+    },
+    {
+      "epoch": 10.987261146496815,
+      "grad_norm": 4.683850288391113,
+      "learning_rate": 0.0005,
+      "loss": 0.9825,
+      "step": 1725
+    },
+    {
+      "epoch": 11.146496815286625,
+      "grad_norm": 4.596772193908691,
+      "learning_rate": 0.0005,
+      "loss": 0.8346,
+      "step": 1750
+    },
+    {
+      "epoch": 11.305732484076433,
+      "grad_norm": 4.516598701477051,
+      "learning_rate": 0.0005,
+      "loss": 0.8364,
+      "step": 1775
+    },
+    {
+      "epoch": 11.464968152866241,
+      "grad_norm": 4.428603649139404,
+      "learning_rate": 0.0005,
+      "loss": 0.8787,
+      "step": 1800
+    },
+    {
+      "epoch": 11.624203821656051,
+      "grad_norm": 5.087082862854004,
+      "learning_rate": 0.0005,
+      "loss": 0.9147,
+      "step": 1825
+    },
+    {
+      "epoch": 11.78343949044586,
+      "grad_norm": 5.706089496612549,
+      "learning_rate": 0.0005,
+      "loss": 0.9533,
+      "step": 1850
+    },
+    {
+      "epoch": 11.94267515923567,
+      "grad_norm": 5.720147132873535,
+      "learning_rate": 0.0005,
+      "loss": 0.9424,
+      "step": 1875
+    },
+    {
+      "epoch": 12.101910828025478,
+      "grad_norm": 4.992929458618164,
+      "learning_rate": 0.0005,
+      "loss": 0.8299,
+      "step": 1900
+    },
+    {
+      "epoch": 12.261146496815286,
+      "grad_norm": 4.936596393585205,
+      "learning_rate": 0.0005,
+      "loss": 0.8422,
+      "step": 1925
+    },
+    {
+      "epoch": 12.420382165605096,
+      "grad_norm": 4.403645038604736,
+      "learning_rate": 0.0005,
+      "loss": 0.8743,
+      "step": 1950
+    },
+    {
+      "epoch": 12.579617834394904,
+      "grad_norm": 4.9296793937683105,
+      "learning_rate": 0.0005,
+      "loss": 0.8704,
+      "step": 1975
+    },
+    {
+      "epoch": 12.738853503184714,
+      "grad_norm": 5.615696430206299,
+      "learning_rate": 0.0005,
+      "loss": 0.8816,
+      "step": 2000
+    },
+    {
+      "epoch": 12.738853503184714,
+      "eval_loss": 4.957520008087158,
+      "eval_runtime": 246.0161,
+      "eval_samples_per_second": 2.683,
+      "eval_steps_per_second": 0.171,
+      "eval_wer": 108.10546875,
+      "eval_wer_ortho": 110.34680973366547,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 9.22088071102464e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null