Training in progress, step 9000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +292 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6272cdab34ad742ff5d8928b1a3b73208418c7bfce7d87a0db8c4712d83527d
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:356aa951308cefb9925541a7565a23ebcfe9ff3c00faddd518dc705f7380d87c
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7de0ef00f4d8d9f4fa9b0e18f25384399f28c54b520f62c3dd31eca12ff60e2
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2d7b2162db187feb649c1155e77b58af89b8abb3d58f0381a5a7e9a473ce4f
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bcd75decc8ec809bdd000c1a023eecd569d9a9775fe640822926fa2ab60021b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8d5ec1a6108a45f66ba00113edd4b4b9f89042f06bef4dde01cea9a8d8b8ca0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64cb8f98c15d4c048d873b0e5f521cf693b6283121ee23f325cb6b6e1b684e58
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6ff39835f6fc0ab5432bbe426fb9e017df9b359be5fad96f2d6b3dde669dc72
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 47.53661784287617,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-7000",
-  "epoch": 3.2,
   "eval_steps": 1000,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2319,6 +2319,295 @@
       "eval_samples_per_second": 2.27,
       "eval_steps_per_second": 0.284,
       "step": 8000
     }
   ],
   "logging_steps": 25,
@@ -2326,7 +2615,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
-  "total_flos": 3.693893124096e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 47.53661784287617,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-7000",
+  "epoch": 3.6,
   "eval_steps": 1000,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.27,
       "eval_steps_per_second": 0.284,
       "step": 8000
+    },
+    {
+      "epoch": 3.21,
+      "grad_norm": 11.635475158691406,
+      "learning_rate": 1.2037037037037037e-06,
+      "loss": 0.3935,
+      "step": 8025
+    },
+    {
+      "epoch": 3.22,
+      "grad_norm": 9.14508056640625,
+      "learning_rate": 1.1728395061728396e-06,
+      "loss": 0.3949,
+      "step": 8050
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 7.534052848815918,
+      "learning_rate": 1.1419753086419754e-06,
+      "loss": 0.462,
+      "step": 8075
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 10.633529663085938,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4319,
+      "step": 8100
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 11.600831031799316,
+      "learning_rate": 1.0802469135802469e-06,
+      "loss": 0.4527,
+      "step": 8125
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 12.2794771194458,
+      "learning_rate": 1.0493827160493827e-06,
+      "loss": 0.4392,
+      "step": 8150
+    },
+    {
+      "epoch": 3.27,
+      "grad_norm": 10.185335159301758,
+      "learning_rate": 1.0185185185185185e-06,
+      "loss": 0.4585,
+      "step": 8175
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "grad_norm": 11.049323081970215,
+      "learning_rate": 9.876543209876544e-07,
+      "loss": 0.4333,
+      "step": 8200
+    },
+    {
+      "epoch": 3.29,
+      "grad_norm": 9.09365177154541,
+      "learning_rate": 9.567901234567902e-07,
+      "loss": 0.445,
+      "step": 8225
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 10.265097618103027,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.4384,
+      "step": 8250
+    },
+    {
+      "epoch": 3.31,
+      "grad_norm": 11.15007495880127,
+      "learning_rate": 8.950617283950618e-07,
+      "loss": 0.4714,
+      "step": 8275
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 10.374354362487793,
+      "learning_rate": 8.641975308641976e-07,
+      "loss": 0.4482,
+      "step": 8300
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 9.22261905670166,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.4367,
+      "step": 8325
+    },
+    {
+      "epoch": 3.34,
+      "grad_norm": 7.564458847045898,
+      "learning_rate": 8.024691358024692e-07,
+      "loss": 0.4144,
+      "step": 8350
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 10.494316101074219,
+      "learning_rate": 7.71604938271605e-07,
+      "loss": 0.4123,
+      "step": 8375
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 8.803318977355957,
+      "learning_rate": 7.407407407407407e-07,
+      "loss": 0.4231,
+      "step": 8400
+    },
+    {
+      "epoch": 3.37,
+      "grad_norm": 9.848652839660645,
+      "learning_rate": 7.098765432098766e-07,
+      "loss": 0.4498,
+      "step": 8425
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 10.841163635253906,
+      "learning_rate": 6.790123456790124e-07,
+      "loss": 0.4634,
+      "step": 8450
+    },
+    {
+      "epoch": 3.39,
+      "grad_norm": 8.382885932922363,
+      "learning_rate": 6.481481481481481e-07,
+      "loss": 0.4402,
+      "step": 8475
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 11.07520866394043,
+      "learning_rate": 6.17283950617284e-07,
+      "loss": 0.3839,
+      "step": 8500
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 9.271187782287598,
+      "learning_rate": 5.864197530864198e-07,
+      "loss": 0.4475,
+      "step": 8525
+    },
+    {
+      "epoch": 3.42,
+      "grad_norm": 8.09450912475586,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.3911,
+      "step": 8550
+    },
+    {
+      "epoch": 3.43,
+      "grad_norm": 9.9707612991333,
+      "learning_rate": 5.246913580246914e-07,
+      "loss": 0.4077,
+      "step": 8575
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 9.983931541442871,
+      "learning_rate": 4.938271604938272e-07,
+      "loss": 0.4045,
+      "step": 8600
+    },
+    {
+      "epoch": 3.45,
+      "grad_norm": 10.254908561706543,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.4406,
+      "step": 8625
+    },
+    {
+      "epoch": 3.46,
+      "grad_norm": 12.151867866516113,
+      "learning_rate": 4.320987654320988e-07,
+      "loss": 0.4247,
+      "step": 8650
+    },
+    {
+      "epoch": 3.4699999999999998,
+      "grad_norm": 10.943432807922363,
+      "learning_rate": 4.012345679012346e-07,
+      "loss": 0.3905,
+      "step": 8675
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 9.766261100769043,
+      "learning_rate": 3.7037037037037036e-07,
+      "loss": 0.4148,
+      "step": 8700
+    },
+    {
+      "epoch": 3.49,
+      "grad_norm": 10.133684158325195,
+      "learning_rate": 3.395061728395062e-07,
+      "loss": 0.3992,
+      "step": 8725
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 9.618481636047363,
+      "learning_rate": 3.08641975308642e-07,
+      "loss": 0.4629,
+      "step": 8750
+    },
+    {
+      "epoch": 3.51,
+      "grad_norm": 8.487075805664062,
+      "learning_rate": 2.7777777777777776e-07,
+      "loss": 0.4331,
+      "step": 8775
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 12.730545043945312,
+      "learning_rate": 2.469135802469136e-07,
+      "loss": 0.4387,
+      "step": 8800
+    },
+    {
+      "epoch": 3.5300000000000002,
+      "grad_norm": 11.143440246582031,
+      "learning_rate": 2.160493827160494e-07,
+      "loss": 0.4487,
+      "step": 8825
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 10.672728538513184,
+      "learning_rate": 1.8518518518518518e-07,
+      "loss": 0.4346,
+      "step": 8850
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 13.340011596679688,
+      "learning_rate": 1.54320987654321e-07,
+      "loss": 0.4646,
+      "step": 8875
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 13.566219329833984,
+      "learning_rate": 1.234567901234568e-07,
+      "loss": 0.5128,
+      "step": 8900
+    },
+    {
+      "epoch": 3.57,
+      "grad_norm": 9.667753219604492,
+      "learning_rate": 9.259259259259259e-08,
+      "loss": 0.4815,
+      "step": 8925
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 11.755305290222168,
+      "learning_rate": 6.17283950617284e-08,
+      "loss": 0.458,
+      "step": 8950
+    },
+    {
+      "epoch": 3.59,
+      "grad_norm": 8.772011756896973,
+      "learning_rate": 3.08641975308642e-08,
+      "loss": 0.4237,
+      "step": 8975
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 9.530144691467285,
+      "learning_rate": 0.0,
+      "loss": 0.4248,
+      "step": 9000
+    },
+    {
+      "epoch": 3.6,
+      "eval_cer": 50.3994673768309,
+      "eval_loss": 0.9010892510414124,
+      "eval_runtime": 1750.8735,
+      "eval_samples_per_second": 2.248,
+      "eval_steps_per_second": 0.281,
+      "step": 9000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 1000,
+  "total_flos": 4.155629764608e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null