Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb108468618613da410f32d3c1102e0e212e266e64c2e56ee7cf5e84d8cc96c1
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdc164423f2a3f84efc5dfbeba06f3615eef5f9d37c1db29ef7adf3cb00ef228
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8ea061beef69a7bdd887c6af179c39c86cc3325feeb1b53c72e45ea18137d3e
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:45427cbf6396a019fcab45f20b6872b19cfd38c2afec6948c7f84225ab41122e
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d71302206d43b899646f143116f719fb5792d66b03688f9e46b401ca84b3d40f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9e77c3664e6c2303c974515f610c095940e1b9f1a09380dcd8d25d4c4eb1d05
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e83ce7997959ea1cdcd0690cfc2a2d847f6064f6ac117f44e54d89a50a980253
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9965564127cf0748ae57ecf2b02aba0f15495da8346241873c057a0c14f61d6d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 53.38840841616109,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-2000",
-  "epoch": 1.2903225806451613,
   "eval_steps": 1000,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -585,6 +585,295 @@
       "eval_samples_per_second": 2.398,
       "eval_steps_per_second": 0.301,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -592,7 +881,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
-  "total_flos": 9.2332898832384e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 51.336001032657805,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-3000",
+  "epoch": 1.935483870967742,
   "eval_steps": 1000,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.398,
       "eval_steps_per_second": 0.301,
       "step": 2000
+    },
+    {
+      "epoch": 1.3064516129032258,
+      "grad_norm": 9.99063777923584,
+      "learning_rate": 6.272401433691757e-06,
+      "loss": 0.588,
+      "step": 2025
+    },
+    {
+      "epoch": 1.3225806451612903,
+      "grad_norm": 13.123091697692871,
+      "learning_rate": 6.212664277180407e-06,
+      "loss": 0.5886,
+      "step": 2050
+    },
+    {
+      "epoch": 1.3387096774193548,
+      "grad_norm": 10.930394172668457,
+      "learning_rate": 6.152927120669057e-06,
+      "loss": 0.6117,
+      "step": 2075
+    },
+    {
+      "epoch": 1.3548387096774195,
+      "grad_norm": 12.531543731689453,
+      "learning_rate": 6.0931899641577065e-06,
+      "loss": 0.5931,
+      "step": 2100
+    },
+    {
+      "epoch": 1.370967741935484,
+      "grad_norm": 13.16308307647705,
+      "learning_rate": 6.033452807646356e-06,
+      "loss": 0.598,
+      "step": 2125
+    },
+    {
+      "epoch": 1.3870967741935485,
+      "grad_norm": 11.17799186706543,
+      "learning_rate": 5.973715651135007e-06,
+      "loss": 0.6141,
+      "step": 2150
+    },
+    {
+      "epoch": 1.403225806451613,
+      "grad_norm": 10.640506744384766,
+      "learning_rate": 5.9139784946236566e-06,
+      "loss": 0.5682,
+      "step": 2175
+    },
+    {
+      "epoch": 1.4193548387096775,
+      "grad_norm": 11.789594650268555,
+      "learning_rate": 5.854241338112307e-06,
+      "loss": 0.5598,
+      "step": 2200
+    },
+    {
+      "epoch": 1.435483870967742,
+      "grad_norm": 11.937474250793457,
+      "learning_rate": 5.794504181600956e-06,
+      "loss": 0.6344,
+      "step": 2225
+    },
+    {
+      "epoch": 1.4516129032258065,
+      "grad_norm": 14.106030464172363,
+      "learning_rate": 5.734767025089606e-06,
+      "loss": 0.5783,
+      "step": 2250
+    },
+    {
+      "epoch": 1.467741935483871,
+      "grad_norm": 12.365781784057617,
+      "learning_rate": 5.675029868578256e-06,
+      "loss": 0.6335,
+      "step": 2275
+    },
+    {
+      "epoch": 1.4838709677419355,
+      "grad_norm": 14.670917510986328,
+      "learning_rate": 5.615292712066906e-06,
+      "loss": 0.5988,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 10.45535659790039,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.5912,
+      "step": 2325
+    },
+    {
+      "epoch": 1.5161290322580645,
+      "grad_norm": 15.059216499328613,
+      "learning_rate": 5.495818399044206e-06,
+      "loss": 0.5405,
+      "step": 2350
+    },
+    {
+      "epoch": 1.532258064516129,
+      "grad_norm": 12.705628395080566,
+      "learning_rate": 5.436081242532856e-06,
+      "loss": 0.5816,
+      "step": 2375
+    },
+    {
+      "epoch": 1.5483870967741935,
+      "grad_norm": 14.382452964782715,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 0.5437,
+      "step": 2400
+    },
+    {
+      "epoch": 1.564516129032258,
+      "grad_norm": 10.80752944946289,
+      "learning_rate": 5.316606929510155e-06,
+      "loss": 0.5975,
+      "step": 2425
+    },
+    {
+      "epoch": 1.5806451612903225,
+      "grad_norm": 12.146509170532227,
+      "learning_rate": 5.2568697729988065e-06,
+      "loss": 0.599,
+      "step": 2450
+    },
+    {
+      "epoch": 1.596774193548387,
+      "grad_norm": 12.145088195800781,
+      "learning_rate": 5.197132616487456e-06,
+      "loss": 0.6506,
+      "step": 2475
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 13.103174209594727,
+      "learning_rate": 5.137395459976105e-06,
+      "loss": 0.5649,
+      "step": 2500
+    },
+    {
+      "epoch": 1.629032258064516,
+      "grad_norm": 13.602423667907715,
+      "learning_rate": 5.077658303464756e-06,
+      "loss": 0.5424,
+      "step": 2525
+    },
+    {
+      "epoch": 1.6451612903225805,
+      "grad_norm": 14.787790298461914,
+      "learning_rate": 5.017921146953405e-06,
+      "loss": 0.5628,
+      "step": 2550
+    },
+    {
+      "epoch": 1.661290322580645,
+      "grad_norm": 11.559283256530762,
+      "learning_rate": 4.9581839904420555e-06,
+      "loss": 0.6216,
+      "step": 2575
+    },
+    {
+      "epoch": 1.6774193548387095,
+      "grad_norm": 13.20376968383789,
+      "learning_rate": 4.898446833930705e-06,
+      "loss": 0.5694,
+      "step": 2600
+    },
+    {
+      "epoch": 1.6935483870967742,
+      "grad_norm": 9.632781982421875,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 0.5808,
+      "step": 2625
+    },
+    {
+      "epoch": 1.7096774193548387,
+      "grad_norm": 12.304398536682129,
+      "learning_rate": 4.7789725209080055e-06,
+      "loss": 0.5777,
+      "step": 2650
+    },
+    {
+      "epoch": 1.7258064516129032,
+      "grad_norm": 11.025238990783691,
+      "learning_rate": 4.719235364396655e-06,
+      "loss": 0.5964,
+      "step": 2675
+    },
+    {
+      "epoch": 1.7419354838709677,
+      "grad_norm": 13.640275955200195,
+      "learning_rate": 4.659498207885305e-06,
+      "loss": 0.5936,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7580645161290323,
+      "grad_norm": 14.28750991821289,
+      "learning_rate": 4.599761051373955e-06,
+      "loss": 0.5814,
+      "step": 2725
+    },
+    {
+      "epoch": 1.7741935483870968,
+      "grad_norm": 14.228248596191406,
+      "learning_rate": 4.540023894862605e-06,
+      "loss": 0.5881,
+      "step": 2750
+    },
+    {
+      "epoch": 1.7903225806451613,
+      "grad_norm": 12.126937866210938,
+      "learning_rate": 4.480286738351255e-06,
+      "loss": 0.5568,
+      "step": 2775
+    },
+    {
+      "epoch": 1.8064516129032258,
+      "grad_norm": 12.653525352478027,
+      "learning_rate": 4.420549581839905e-06,
+      "loss": 0.5988,
+      "step": 2800
+    },
+    {
+      "epoch": 1.8225806451612905,
+      "grad_norm": 10.851930618286133,
+      "learning_rate": 4.360812425328555e-06,
+      "loss": 0.6073,
+      "step": 2825
+    },
+    {
+      "epoch": 1.838709677419355,
+      "grad_norm": 12.00724983215332,
+      "learning_rate": 4.3010752688172045e-06,
+      "loss": 0.5739,
+      "step": 2850
+    },
+    {
+      "epoch": 1.8548387096774195,
+      "grad_norm": 10.997614860534668,
+      "learning_rate": 4.241338112305855e-06,
+      "loss": 0.5663,
+      "step": 2875
+    },
+    {
+      "epoch": 1.870967741935484,
+      "grad_norm": 12.384391784667969,
+      "learning_rate": 4.181600955794505e-06,
+      "loss": 0.5325,
+      "step": 2900
+    },
+    {
+      "epoch": 1.8870967741935485,
+      "grad_norm": 10.200772285461426,
+      "learning_rate": 4.121863799283155e-06,
+      "loss": 0.5918,
+      "step": 2925
+    },
+    {
+      "epoch": 1.903225806451613,
+      "grad_norm": 13.224651336669922,
+      "learning_rate": 4.062126642771804e-06,
+      "loss": 0.5399,
+      "step": 2950
+    },
+    {
+      "epoch": 1.9193548387096775,
+      "grad_norm": 10.611023902893066,
+      "learning_rate": 4.002389486260454e-06,
+      "loss": 0.5593,
+      "step": 2975
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 10.110644340515137,
+      "learning_rate": 3.942652329749105e-06,
+      "loss": 0.5611,
+      "step": 3000
+    },
+    {
+      "epoch": 1.935483870967742,
+      "eval_cer": 51.336001032657805,
+      "eval_loss": 0.6702780723571777,
+      "eval_runtime": 963.0475,
+      "eval_samples_per_second": 2.369,
+      "eval_steps_per_second": 0.297,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
+  "total_flos": 1.38506562883584e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null