Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a884e453f4f9292aeefb259505fd0be4d2548b45c218358b5961ea274f55d6e
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:60e2e575c9978e0260ef247845a4c1daf3f51ceb48a7525a63c27ba51b78b0b3
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:517a8d2484fb9208abfae412945a031ba10eed01d1edfcc4e106568bb4c14b87
 size 1925070764

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c1b3b2a0bb7a2f926ac474269f9e991cd89d84f4d190a7292f6bd37860df3a2
 size 1925070764

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b23f626a7efa36d01f5e36f3f34d543aac465661afc2ed75e47913bc2ba74c7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ad752088b229d78039d00fa98cec499de1d448da781bc7460fcfe8880b39ae1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3ea9d13baff2282d300ceb3c3984a3388d1450303ffc8640c73967fa3325903
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f0b34b2ac94b6ae1b1e612c27fa9cd4fd3034532b792dc74af68839fa9ffe62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 80.09197164207703,
   "best_model_checkpoint": "./whisper-small-ha-adam-v5/checkpoint-2000",
-  "epoch": 12.738853503184714,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,156 @@
       "eval_wer": 80.09197164207703,
       "eval_wer_ortho": 81.9921875,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -626,7 +776,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.22088071102464e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 80.09197164207703,
   "best_model_checkpoint": "./whisper-small-ha-adam-v5/checkpoint-2000",
+  "epoch": 15.923566878980893,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 80.09197164207703,
       "eval_wer_ortho": 81.9921875,
       "step": 2000
+    },
+    {
+      "epoch": 12.898089171974522,
+      "grad_norm": 2.6092240810394287,
+      "learning_rate": 5e-05,
+      "loss": 0.0373,
+      "step": 2025
+    },
+    {
+      "epoch": 13.05732484076433,
+      "grad_norm": 3.123652935028076,
+      "learning_rate": 5e-05,
+      "loss": 0.0293,
+      "step": 2050
+    },
+    {
+      "epoch": 13.21656050955414,
+      "grad_norm": 2.5134246349334717,
+      "learning_rate": 5e-05,
+      "loss": 0.0268,
+      "step": 2075
+    },
+    {
+      "epoch": 13.375796178343949,
+      "grad_norm": 1.4545310735702515,
+      "learning_rate": 5e-05,
+      "loss": 0.0294,
+      "step": 2100
+    },
+    {
+      "epoch": 13.535031847133759,
+      "grad_norm": 2.473706007003784,
+      "learning_rate": 5e-05,
+      "loss": 0.0307,
+      "step": 2125
+    },
+    {
+      "epoch": 13.694267515923567,
+      "grad_norm": 2.8176300525665283,
+      "learning_rate": 5e-05,
+      "loss": 0.0279,
+      "step": 2150
+    },
+    {
+      "epoch": 13.853503184713375,
+      "grad_norm": 38.75226974487305,
+      "learning_rate": 5e-05,
+      "loss": 0.0454,
+      "step": 2175
+    },
+    {
+      "epoch": 14.012738853503185,
+      "grad_norm": 0.736247181892395,
+      "learning_rate": 5e-05,
+      "loss": 0.0247,
+      "step": 2200
+    },
+    {
+      "epoch": 14.171974522292993,
+      "grad_norm": 2.7903378009796143,
+      "learning_rate": 5e-05,
+      "loss": 0.0289,
+      "step": 2225
+    },
+    {
+      "epoch": 14.331210191082803,
+      "grad_norm": 2.184035301208496,
+      "learning_rate": 5e-05,
+      "loss": 0.0216,
+      "step": 2250
+    },
+    {
+      "epoch": 14.490445859872612,
+      "grad_norm": 2.464597702026367,
+      "learning_rate": 5e-05,
+      "loss": 0.0275,
+      "step": 2275
+    },
+    {
+      "epoch": 14.64968152866242,
+      "grad_norm": 4.4987335205078125,
+      "learning_rate": 5e-05,
+      "loss": 0.0374,
+      "step": 2300
+    },
+    {
+      "epoch": 14.80891719745223,
+      "grad_norm": 2.5459258556365967,
+      "learning_rate": 5e-05,
+      "loss": 0.031,
+      "step": 2325
+    },
+    {
+      "epoch": 14.968152866242038,
+      "grad_norm": 2.8609278202056885,
+      "learning_rate": 5e-05,
+      "loss": 0.0338,
+      "step": 2350
+    },
+    {
+      "epoch": 15.127388535031848,
+      "grad_norm": 0.5692533850669861,
+      "learning_rate": 5e-05,
+      "loss": 0.0154,
+      "step": 2375
+    },
+    {
+      "epoch": 15.286624203821656,
+      "grad_norm": 1.785417914390564,
+      "learning_rate": 5e-05,
+      "loss": 0.0285,
+      "step": 2400
+    },
+    {
+      "epoch": 15.445859872611464,
+      "grad_norm": 3.1533737182617188,
+      "learning_rate": 5e-05,
+      "loss": 0.027,
+      "step": 2425
+    },
+    {
+      "epoch": 15.605095541401274,
+      "grad_norm": 0.5182532072067261,
+      "learning_rate": 5e-05,
+      "loss": 0.0293,
+      "step": 2450
+    },
+    {
+      "epoch": 15.764331210191083,
+      "grad_norm": 2.0394535064697266,
+      "learning_rate": 5e-05,
+      "loss": 0.0316,
+      "step": 2475
+    },
+    {
+      "epoch": 15.923566878980893,
+      "grad_norm": 0.6453192234039307,
+      "learning_rate": 5e-05,
+      "loss": 0.0213,
+      "step": 2500
+    },
+    {
+      "epoch": 15.923566878980893,
+      "eval_loss": 2.2915444374084473,
+      "eval_runtime": 239.3393,
+      "eval_samples_per_second": 2.758,
+      "eval_steps_per_second": 0.175,
+      "eval_wer": 80.80091971642076,
+      "eval_wer_ortho": 82.578125,
+      "step": 2500
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.15261008887808e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null