Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +155 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a3db2ff016b328cd68cc8f1cb89a07c1b47135a2e494934f6dde9ce800d2348
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:511578a0d482675e3ff17b4d731393ce3c283abd8d16f8a85a3f15d02a56e39f
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6730363fb76f2edd6821e506a2abd45c7cc27ded1e1efd4c997f1c7b96767b08
 size 1925070764

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6ed9b6da13b19371de47f3a2b44715717ead8b5eeed3a91c863518d2a661a22
 size 1925070764

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7686bf6430a5fadcfa927b0a151b31a4e397fd869a789b35ecb4e699dd607b3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:811d52f8a469bde4a4138f47efe6e2b676d318980b3df9610e6fcc5abea00325
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0054bae4a1765c1151c5d499ec353895197f5e92e18df41e313afd3470bb8693
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3ea9d13baff2282d300ceb3c3984a3388d1450303ffc8640c73967fa3325903
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 81.14581337420962,
-  "best_model_checkpoint": "./whisper-small-ha-adam-v4/checkpoint-1000",
-  "epoch": 9.554140127388536,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,6 +457,156 @@
       "eval_wer": 87.75627514849587,
       "eval_wer_ortho": 89.84375,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -476,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.91566053326848e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 78.86568308105001,
+  "best_model_checkpoint": "./whisper-small-ha-adam-v4/checkpoint-2000",
+  "epoch": 12.738853503184714,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 87.75627514849587,
       "eval_wer_ortho": 89.84375,
       "step": 1500
+    },
+    {
+      "epoch": 9.713375796178344,
+      "grad_norm": 2.170787811279297,
+      "learning_rate": 5e-05,
+      "loss": 0.0327,
+      "step": 1525
+    },
+    {
+      "epoch": 9.872611464968152,
+      "grad_norm": 2.1923575401306152,
+      "learning_rate": 5e-05,
+      "loss": 0.0472,
+      "step": 1550
+    },
+    {
+      "epoch": 10.031847133757962,
+      "grad_norm": 4.220789909362793,
+      "learning_rate": 5e-05,
+      "loss": 0.0463,
+      "step": 1575
+    },
+    {
+      "epoch": 10.19108280254777,
+      "grad_norm": 1.4491336345672607,
+      "learning_rate": 5e-05,
+      "loss": 0.0447,
+      "step": 1600
+    },
+    {
+      "epoch": 10.35031847133758,
+      "grad_norm": 3.3499913215637207,
+      "learning_rate": 5e-05,
+      "loss": 0.043,
+      "step": 1625
+    },
+    {
+      "epoch": 10.509554140127388,
+      "grad_norm": 2.196830987930298,
+      "learning_rate": 5e-05,
+      "loss": 0.035,
+      "step": 1650
+    },
+    {
+      "epoch": 10.668789808917197,
+      "grad_norm": 2.2914416790008545,
+      "learning_rate": 5e-05,
+      "loss": 0.0281,
+      "step": 1675
+    },
+    {
+      "epoch": 10.828025477707007,
+      "grad_norm": 2.437507152557373,
+      "learning_rate": 5e-05,
+      "loss": 0.0431,
+      "step": 1700
+    },
+    {
+      "epoch": 10.987261146496815,
+      "grad_norm": 5.599733352661133,
+      "learning_rate": 5e-05,
+      "loss": 0.0434,
+      "step": 1725
+    },
+    {
+      "epoch": 11.146496815286625,
+      "grad_norm": 3.811133861541748,
+      "learning_rate": 5e-05,
+      "loss": 0.0287,
+      "step": 1750
+    },
+    {
+      "epoch": 11.305732484076433,
+      "grad_norm": 3.298198938369751,
+      "learning_rate": 5e-05,
+      "loss": 0.0477,
+      "step": 1775
+    },
+    {
+      "epoch": 11.464968152866241,
+      "grad_norm": 1.9741543531417847,
+      "learning_rate": 5e-05,
+      "loss": 0.0423,
+      "step": 1800
+    },
+    {
+      "epoch": 11.624203821656051,
+      "grad_norm": 1.3877679109573364,
+      "learning_rate": 5e-05,
+      "loss": 0.033,
+      "step": 1825
+    },
+    {
+      "epoch": 11.78343949044586,
+      "grad_norm": 1.5006356239318848,
+      "learning_rate": 5e-05,
+      "loss": 0.0292,
+      "step": 1850
+    },
+    {
+      "epoch": 11.94267515923567,
+      "grad_norm": 2.8492929935455322,
+      "learning_rate": 5e-05,
+      "loss": 0.0273,
+      "step": 1875
+    },
+    {
+      "epoch": 12.101910828025478,
+      "grad_norm": 3.423665761947632,
+      "learning_rate": 5e-05,
+      "loss": 0.0234,
+      "step": 1900
+    },
+    {
+      "epoch": 12.261146496815286,
+      "grad_norm": 2.3133459091186523,
+      "learning_rate": 5e-05,
+      "loss": 0.0358,
+      "step": 1925
+    },
+    {
+      "epoch": 12.420382165605096,
+      "grad_norm": 3.495283603668213,
+      "learning_rate": 5e-05,
+      "loss": 0.0355,
+      "step": 1950
+    },
+    {
+      "epoch": 12.579617834394904,
+      "grad_norm": 1.5722227096557617,
+      "learning_rate": 5e-05,
+      "loss": 0.039,
+      "step": 1975
+    },
+    {
+      "epoch": 12.738853503184714,
+      "grad_norm": 3.156038522720337,
+      "learning_rate": 5e-05,
+      "loss": 0.0314,
+      "step": 2000
+    },
+    {
+      "epoch": 12.738853503184714,
+      "eval_loss": 2.215003490447998,
+      "eval_runtime": 260.0556,
+      "eval_samples_per_second": 2.538,
+      "eval_steps_per_second": 0.162,
+      "eval_wer": 78.86568308105001,
+      "eval_wer_ortho": 81.0546875,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 9.22088071102464e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null