Training in progress, step 1000

Browse files

Files changed (12) hide show

all_results.json +5 -5
config.json +9 -9
pytorch_model.bin +2 -2
run.sh +4 -5
runs/Dec16_22-51-47_ip-172-16-16-209.ec2.internal/1671231123.5662413/events.out.tfevents.1671231123.ip-172-16-16-209.ec2.internal.29304.1 +3 -0
runs/Dec16_22-51-47_ip-172-16-16-209.ec2.internal/events.out.tfevents.1671231123.ip-172-16-16-209.ec2.internal.29304.0 +3 -0
runs/Dec16_22-54-22_ip-172-16-16-209.ec2.internal/1671231277.9215746/events.out.tfevents.1671231277.ip-172-16-16-209.ec2.internal.32089.1 +3 -0
runs/Dec16_22-54-22_ip-172-16-16-209.ec2.internal/events.out.tfevents.1671231277.ip-172-16-16-209.ec2.internal.32089.0 +3 -0
tokenizer_config.json +1 -1
train_results.json +5 -5
trainer_state.json +12 -261
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 4.01,
     "eval_loss": 0.5422283411026001,
     "eval_runtime": 892.2169,
     "eval_samples_per_second": 1.386,
     "eval_steps_per_second": 0.087,
     "eval_wer": 20.04825619653433,
-    "train_loss": 0.19602714616060257,
-    "train_runtime": 17744.1511,
-    "train_samples_per_second": 0.902,
-    "train_steps_per_second": 0.056
 }

 {
+    "epoch": 1.0,
     "eval_loss": 0.5422283411026001,
     "eval_runtime": 892.2169,
     "eval_samples_per_second": 1.386,
     "eval_steps_per_second": 0.087,
     "eval_wer": 20.04825619653433,
+    "train_loss": 0.7568578720092773,
+    "train_runtime": 77.245,
+    "train_samples_per_second": 0.104,
+    "train_steps_per_second": 0.013
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "openai/whisper-large",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
@@ -11,17 +11,17 @@
     50257
   ],
   "bos_token_id": 50257,
-  "d_model": 1280,
-  "decoder_attention_heads": 20,
-  "decoder_ffn_dim": 5120,
   "decoder_layerdrop": 0.0,
-  "decoder_layers": 32,
   "decoder_start_token_id": 50258,
   "dropout": 0.0,
-  "encoder_attention_heads": 20,
-  "encoder_ffn_dim": 5120,
   "encoder_layerdrop": 0.0,
-  "encoder_layers": 32,
   "eos_token_id": 50257,
   "forced_decoder_ids": null,
   "init_std": 0.02,
@@ -30,7 +30,7 @@
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "model_type": "whisper",
-  "num_hidden_layers": 32,
   "num_mel_bins": 80,
   "pad_token_id": 50257,
   "scale_embedding": false,

 {
+  "_name_or_path": "openai/whisper-medium",
   "activation_dropout": 0.0,
   "activation_function": "gelu",
   "architectures": [
     50257
   ],
   "bos_token_id": 50257,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
   "decoder_layerdrop": 0.0,
+  "decoder_layers": 24,
   "decoder_start_token_id": 50258,
   "dropout": 0.0,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
   "encoder_layerdrop": 0.0,
+  "encoder_layers": 24,
   "eos_token_id": 50257,
   "forced_decoder_ids": null,
   "init_std": 0.02,
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "model_type": "whisper",
+  "num_hidden_layers": 24,
   "num_mel_bins": 80,
   "pad_token_id": 50257,
   "scale_embedding": false,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b171162e0f6c3c123f162425aaf1faa210d63e93692be3832d6eb1f2da952b1
-size 6173647530

 version https://git-lfs.github.com/spec/v1
+oid sha256:e01ec9eccb75a5c62b8326712df5945b6f8bf00f6fe6486fc6d4972a986c62a0
+size 3055748571

run.sh CHANGED Viewed

@@ -1,15 +1,15 @@
 python run_speech_recognition_seq2seq_streaming.py \
---model_name_or_path="openai/whisper-large" \
 --dataset_name="mozilla-foundation/common_voice_11_0" \
 --dataset_config_name="vi" \
 --language="vi" \
 --train_split_name="train+validation" \
 --eval_split_name="test" \
 --model_index_name="Whisper Medium Vietnamese" \
---max_steps="1" \
 --output_dir="./" \
---per_device_train_batch_size="1" \
---per_device_eval_batch_size="1" \
 --logging_steps="25" \
 --learning_rate="1e-5" \
 --warmup_steps="100" \
@@ -35,4 +35,3 @@ python run_speech_recognition_seq2seq_streaming.py \
 --streaming \
 --use_auth_token \
 --push_to_hub \
---optim="adafactor"

 python run_speech_recognition_seq2seq_streaming.py \
+--model_name_or_path="openai/whisper-medium" \
 --dataset_name="mozilla-foundation/common_voice_11_0" \
 --dataset_config_name="vi" \
 --language="vi" \
 --train_split_name="train+validation" \
 --eval_split_name="test" \
 --model_index_name="Whisper Medium Vietnamese" \
+--max_steps="1000" \
 --output_dir="./" \
+--per_device_train_batch_size="2" \
+--per_device_eval_batch_size="2" \
 --logging_steps="25" \
 --learning_rate="1e-5" \
 --warmup_steps="100" \
 --streaming \
 --use_auth_token \
 --push_to_hub \

runs/Dec16_22-51-47_ip-172-16-16-209.ec2.internal/1671231123.5662413/events.out.tfevents.1671231123.ip-172-16-16-209.ec2.internal.29304.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a64b73ab7fb71819df4f35da4f82b57f8d4a401bdd4ac3a4b12ce9f8068dae34
+size 5886

runs/Dec16_22-51-47_ip-172-16-16-209.ec2.internal/events.out.tfevents.1671231123.ip-172-16-16-209.ec2.internal.29304.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18f84ebd1ca04495b54fbeed7c6c8871e5430ea4d8d352d2b89597f80d88da48
+size 4283

runs/Dec16_22-54-22_ip-172-16-16-209.ec2.internal/1671231277.9215746/events.out.tfevents.1671231277.ip-172-16-16-209.ec2.internal.32089.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed0867f23c0db7d7d49f11313e6c24756f8979d043b96b80c81d480be49c357d
+size 5885

runs/Dec16_22-54-22_ip-172-16-16-209.ec2.internal/events.out.tfevents.1671231277.ip-172-16-16-209.ec2.internal.32089.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:984a6d26d632c0cd1f8b1c47f8108c272f2be5c6e42535c0bf1fbe4ff12261cc
+size 10865

tokenizer_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   },
   "errors": "replace",
   "model_max_length": 1024,
-  "name_or_path": "openai/whisper-large",
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,

   },
   "errors": "replace",
   "model_max_length": 1024,
+  "name_or_path": "openai/whisper-medium",
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 4.01,
-    "train_loss": 0.19602714616060257,
-    "train_runtime": 17744.1511,
-    "train_samples_per_second": 0.902,
-    "train_steps_per_second": 0.056
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.7568578720092773,
+    "train_runtime": 77.245,
+    "train_samples_per_second": 0.104,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -1,274 +1,25 @@
 {
-  "best_metric": 20.04825619653433,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 4.008,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.1000000000000002e-06,
-      "loss": 1.7151,
-      "step": 25
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 4.600000000000001e-06,
-      "loss": 0.7627,
-      "step": 50
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.100000000000001e-06,
-      "loss": 0.3638,
-      "step": 75
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 0.3364,
-      "step": 100
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 9.766666666666667e-06,
-      "loss": 0.3486,
-      "step": 125
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 9.48888888888889e-06,
-      "loss": 0.3894,
-      "step": 150
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 9.211111111111111e-06,
-      "loss": 0.4697,
-      "step": 175
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 8.933333333333333e-06,
-      "loss": 0.3761,
-      "step": 200
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 8.655555555555557e-06,
-      "loss": 0.3839,
-      "step": 225
-    },
     {
       "epoch": 1.0,
-      "learning_rate": 8.377777777777779e-06,
-      "loss": 0.3711,
-      "step": 250
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 8.1e-06,
-      "loss": 0.1781,
-      "step": 275
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 7.822222222222224e-06,
-      "loss": 0.1591,
-      "step": 300
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 7.544444444444445e-06,
-      "loss": 0.1354,
-      "step": 325
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 7.266666666666668e-06,
-      "loss": 0.1823,
-      "step": 350
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 6.9888888888888895e-06,
-      "loss": 0.1651,
-      "step": 375
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 6.711111111111111e-06,
-      "loss": 0.1603,
-      "step": 400
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 6.433333333333333e-06,
-      "loss": 0.1426,
-      "step": 425
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 6.155555555555556e-06,
-      "loss": 0.178,
-      "step": 450
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 5.877777777777778e-06,
-      "loss": 0.1491,
-      "step": 475
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 0.0891,
-      "step": 500
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 5.322222222222223e-06,
-      "loss": 0.0439,
-      "step": 525
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 5.044444444444445e-06,
-      "loss": 0.0815,
-      "step": 550
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 4.766666666666667e-06,
-      "loss": 0.0708,
-      "step": 575
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 4.488888888888889e-06,
-      "loss": 0.0662,
-      "step": 600
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 4.211111111111112e-06,
-      "loss": 0.076,
-      "step": 625
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 3.9333333333333335e-06,
-      "loss": 0.0632,
-      "step": 650
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 3.6555555555555562e-06,
-      "loss": 0.0461,
-      "step": 675
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 3.377777777777778e-06,
-      "loss": 0.0826,
-      "step": 700
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 3.1000000000000004e-06,
-      "loss": 0.0674,
-      "step": 725
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 2.8222222222222223e-06,
-      "loss": 0.0247,
-      "step": 750
-    },
-    {
-      "epoch": 3.03,
-      "learning_rate": 2.5444444444444446e-06,
-      "loss": 0.0147,
-      "step": 775
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 2.266666666666667e-06,
-      "loss": 0.0141,
-      "step": 800
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 1.988888888888889e-06,
-      "loss": 0.0255,
-      "step": 825
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 1.7111111111111112e-06,
-      "loss": 0.011,
-      "step": 850
-    },
-    {
-      "epoch": 3.13,
-      "learning_rate": 1.4333333333333335e-06,
-      "loss": 0.0099,
-      "step": 875
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 1.1555555555555556e-06,
-      "loss": 0.013,
-      "step": 900
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 8.777777777777778e-07,
-      "loss": 0.0213,
-      "step": 925
-    },
-    {
-      "epoch": 3.21,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 0.0119,
-      "step": 950
-    },
-    {
-      "epoch": 3.23,
-      "learning_rate": 3.2222222222222227e-07,
-      "loss": 0.0173,
-      "step": 975
-    },
-    {
-      "epoch": 4.01,
-      "learning_rate": 4.444444444444445e-08,
-      "loss": 0.0241,
-      "step": 1000
-    },
-    {
-      "epoch": 4.01,
-      "eval_loss": 0.5422283411026001,
-      "eval_runtime": 909.8399,
-      "eval_samples_per_second": 1.36,
-      "eval_steps_per_second": 0.086,
-      "eval_wer": 20.04825619653433,
-      "step": 1000
-    },
-    {
-      "epoch": 4.01,
-      "step": 1000,
-      "total_flos": 2.04120981504e+18,
-      "train_loss": 0.19602714616060257,
-      "train_runtime": 17744.1511,
-      "train_samples_per_second": 0.902,
-      "train_steps_per_second": 0.056
     }
   ],
-  "max_steps": 1000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 2.04120981504e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "step": 1,
+      "total_flos": 2123171020800000.0,
+      "train_loss": 0.7568578720092773,
+      "train_runtime": 77.245,
+      "train_samples_per_second": 0.104,
+      "train_steps_per_second": 0.013
     }
   ],
+  "max_steps": 1,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 2123171020800000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:830f6ecfa0a963c5e4ff14505bfc4032398db3e6c643bafb761761372b95daa0
 size 3567

 version https://git-lfs.github.com/spec/v1
+oid sha256:797ed569144ee33ce5c73c8ff626254eade6c09a5f329d456d3905f401ac3e71
 size 3567