HP-tune and optimize the model for a better performance

Browse files

Files changed (12) hide show

README.md +65 -79
all_results.json +0 -24
config.json +7 -7
eval_results.json +0 -12
normalizer.py +70 -0
predictions.csv +0 -0
preprocessor_config.json +1 -0
pytorch_model.bin +1 -1
result.bin +0 -3
train_results.json +0 -15
trainer_state.json +116 -236
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -26,7 +26,7 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 53.96
 ---
@@ -47,6 +47,10 @@ The model can be used directly (without a language model) as follows:
 !pip install jiwer
 ```
 **Prediction**
 ```python
@@ -62,32 +66,7 @@ import string
 import IPython.display as ipd
-chars_to_ignore = [
-    ",", "?", ".", "!", "-", ";", ":", '""', "%", "'", '"', "�",
-    "#", "!", "?", "«", "»", "(", ")", "؛", ",", "?", ".", "!", "-", ";", ":", '"',
-    "“", "%", "‘", "�", "–", "…", "_", "”", '“', '„'
-]
-chars_to_mapping = {
-"\\u200c": " ", "\\u200d": " ", "\\u200e": " ", "\\u200f": " ", "\\ufeff": " ",
-}
-def multiple_replace(text, chars_to_mapping):
-    pattern = "|".join(map(re.escape, chars_to_mapping.keys()))
-    return re.sub(pattern, lambda m: chars_to_mapping[m.group()], str(text))
-def remove_special_characters(text, chars_to_ignore_regex):
-    text = re.sub(chars_to_ignore_regex, '', text).lower() + " "
-    return text
-def normalizer(batch, chars_to_ignore, chars_to_mapping):
-    chars_to_ignore_regex = f"""[{"".join(chars_to_ignore)}]"""
-    text = batch["sentence"].lower().strip()
-    text = multiple_replace(text, chars_to_mapping)
-    text = remove_special_characters(text, chars_to_ignore_regex)
-    batch["sentence"] = text
-    return batch
 def speech_file_to_array_fn(batch):
@@ -121,7 +100,7 @@ model = Wav2Vec2ForCTC.from_pretrained("m3hrdadfi/wav2vec2-large-xlsr-georgian")
 dataset = load_dataset("common_voice", "ka", split="test[:1%]")
 dataset = dataset.map(
     normalizer,
-    fn_kwargs={"chars_to_ignore": chars_to_ignore, "chars_to_mapping": chars_to_mapping},
     remove_columns=list(set(dataset.column_names) - set(['sentence', 'path']))
 )
@@ -138,35 +117,65 @@ for i in max_items:
 **Output:**
 ```text
-reference: ადმინისტრაციული ცენტრი ქალაქი იმიშლი
-predicted: ადმინისტრაციული ცენტრი ქალაქი იმიშლი
 ---
-reference: დაიბადა ადვოკატის ოჯახში
-predicted: აიბადა ადმოკატის ოჯახში
 ---
-reference: აღსანიშნავია რომ სიმღერა წარმოადგენს პოლ მაკკარტნისა და ჯორჯ ჰარისონის იშვიათ ვოკალურ დუეტს
-predicted: აღსენიშნავიარო სიმღე რაწარმოადგემს ბოლ მაკარდნის და ჯორჩხარისონის იშვიად ვოკალურ დუეთს
 ---
-reference: იკრძალებოდა წირვალოცვა ქართულ ენაზე
-predicted: იკრძალებოდე წირვა ლოცვა ქართულ ენაზე
 ---
-reference: აღმართულია ვალესა და ბერნის კანტონების საზღვარზე
-predicted: აღმართულია ვალესა და ბერნის კანთონების საზღვარზე
 ---
-reference: აქ იგი მიიწვიეს სამხატვრო აკადემიაში სადაც სიცოცხლის ბოლომდე ეწეოდა პედაგოგიურ მოღვაწეობას
-predicted: აქ იგი მიისწრვიეს სამხატრო აკადემი აშისა და ციცაცხლის ბოლომდე ეწყებობ და პედაგუდივირ მოყვაწევებას
 ---
-reference: კლარისა თანხმდება შემოთავაზებაზე და ლექტერის დახმარებით სერიული მკვლელის კვალს დაადგება
-predicted: კლარის თან ხვდება შემუთავაზე ბაზე და ლექტერის დახმარებიც სერიური მკვლელის კველს დაადგებაა
 ---
-reference: იბრძოდა ტყვეებით ვაჭრობის წინააღმდეგ
-predicted: დიბრძოტო ტყვეებით ვაჭრობის წინააღდეგ
 ---
-reference: სათავსს აღმოსავლეთით და დასავლეთით თითო სარკმელი აქვს
-predicted: სათავს აღმოსაველეთი და დასავლეთ მთიდო სარკმელი აქვს
 ---
-reference: იგი მდებარეობს ქალაქის ჩრდილოაღმოსავლეთ ნაწილში
-predicted: იგი მდებარეობს ქალაქის ჩრდილო აღმოსავლეთ ნაწილში
 ---
 ```
@@ -186,33 +195,7 @@ import numpy as np
 import re
 import string
-chars_to_ignore = [
-    ",", "?", ".", "!", "-", ";", ":", '""', "%", "'", '"', "�",
-    "#", "!", "?", "«", "»", "(", ")", "؛", ",", "?", ".", "!", "-", ";", ":", '"',
-    "“", "%", "‘", "�", "–", "…", "_", "”", '“', '„'
-]
-chars_to_mapping = {
-    "\\u200c": " ", "\\u200d": " ", "\\u200e": " ", "\\u200f": " ", "\\ufeff": " ",
-}
-def multiple_replace(text, chars_to_mapping):
-    pattern = "|".join(map(re.escape, chars_to_mapping.keys()))
-    return re.sub(pattern, lambda m: chars_to_mapping[m.group()], str(text))
-def remove_special_characters(text, chars_to_ignore_regex):
-    text = re.sub(chars_to_ignore_regex, '', text).lower() + " "
-    return text
-def normalizer(batch, chars_to_ignore, chars_to_mapping):
-    chars_to_ignore_regex = f"""[{"".join(chars_to_ignore)}]"""
-    text = batch["sentence"].lower().strip()
-    text = multiple_replace(text, chars_to_mapping)
-    text = remove_special_characters(text, chars_to_ignore_regex)
-    batch["sentence"] = text
-    return batch
 def speech_file_to_array_fn(batch):
@@ -246,7 +229,7 @@ model = Wav2Vec2ForCTC.from_pretrained("m3hrdadfi/wav2vec2-large-xlsr-georgian")
 dataset = load_dataset("common_voice", "ka", split="test")
 dataset = dataset.map(
     normalizer,
-    fn_kwargs={"chars_to_ignore": chars_to_ignore, "chars_to_mapping": chars_to_mapping},
     remove_columns=list(set(dataset.column_names) - set(['sentence', 'path']))
 )
@@ -260,12 +243,15 @@ print("WER: {:.2f}".format(100 * wer.compute(predictions=result["predicted"], re
 **Test Result**:
-- WER: 53.96%
 ## Training & Report
 The Common Voice `train`, `validation` datasets were used for training.
-You can see the training states [here](https://wandb.ai/m3hrdadfi/finetuned_wav2vec_xlsr_georgian/reports/Fine-Tuning-for-Wav2Vec2-Large-XLSR-53-Georgian--Vmlldzo1NTg5MDQ?accessToken=rsmd0p83iln13yq23b9kzj8bim6nco21w8cqn2tb19v51okakqk92c71h6hbxmfj)
-The script used for training can be found [here](https://colab.research.google.com/github/m3hrdadfi/notebooks/blob/main/Fine_Tune_XLSR_Wav2Vec2_on_Georgian_ASR_with_%F0%9F%A4%97_Transformers_ipynb.ipynb)

     metrics:
        - name: Test WER
          type: wer
+         value: 43.86
 ---
 !pip install jiwer
 ```
+**Normalizer**
+```bash
+!wget -O normalizer.py https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-lithuanian/raw/main/normalizer.py
+```
 **Prediction**
 ```python
 import IPython.display as ipd
+from normalizer import normalizer
 def speech_file_to_array_fn(batch):
 dataset = load_dataset("common_voice", "ka", split="test[:1%]")
 dataset = dataset.map(
     normalizer,
+    fn_kwargs={"remove_extra_space": True},
     remove_columns=list(set(dataset.column_names) - set(['sentence', 'path']))
 )
 **Output:**
 ```text
+reference: პრეზიდენტობისას ბუში საქართველოს და უკრაინის დემოკრატიულ მოძრაობების და ნატოში გაწევრიანების აქტიური მხარდამჭერი იყო
+predicted: პრეზიდენტო ვისას ბუში საქართველოს და უკრაინის დემოკრატიულ მოძრაობების და ნატიში დაწევრიანების აქტიური მხარდამჭერი იყო
+---
+reference: შესაძლებელია მისი დამონება და მსახურ დემონად გადაქცევა
+predicted: შესაძლებელია მისი დამონებათ და მსახურდემანად გადაქცევა
+---
+reference: ეს გამოსახულებები აღბეჭდილი იყო მოსკოვის დიდი მთავრებისა და მეფეების ბეჭდებზე
+predicted: ეს გამოსახულებები აღბეჭდილი იყო მოსკოვის დიდი მთავრებისა და მეფეების ბეჭდებზე
+---
+reference: ჯოლიმ ოქროს გლობუსისა და კინომსახიობთა გილდიის ნომინაციები მიიღო
+predicted: ჯოლი მოქროს გლობუსისა და კინამსახიობთა გილდიის ნომინაციები მიიღო
+---
+reference: შემდგომში საქალაქო ბიბლიოთეკა სარაიონო ბიბლიოთეკად გადაკეთდა გაიზარდა წიგნადი ფონდი
+predicted: შემდღომში საქალაქო ბიბლიოთეკა სარაიონო ბიბლიოთეკად გადაკეთა გაიზარდა წიგნადი ფოვდი
+---
+reference: აბრამსი დაუკავშირდა მირანდას და ორი თვის განმავლობაში ისინი მუშაობდნენ აღნიშნული სცენის თანმხლებ მელოდიაზე
+predicted: აბრამში და უკავშირდა მირანდეს და ორითვის განმავლობაში ისინი მუშაობდნენა აღნიშნულის ჩენის მთამხლევით მელოდიაში
+---
+reference: ამჟამად თემთა პალატის ოპოზიციის ლიდერია ლეიბორისტული პარტიის ლიდერი ჯერემი კორბინი
+predicted: ამჟამად თემთა პალატის ოპოზიციის ლიდერია ლეიბურისტული პარტიის ლიდერი ჯერემი კორვინი
+---
+reference: ორი
+predicted: ორი
 ---
+reference: მას შემდეგ იგი კოლექტივის მუდმივი წევრია
+predicted: მას შემდეგ იგი კოლექტივის ფუდ მივი წევრია
 ---
+reference: აზერბაიჯანულ ფილოსოფიას შეიძლება მივაკუთვნოთ რუსეთის საზოგადო მოღვაწე ჰეიდარ ჯემალი
+predicted: აზერგვოიჯანალ ფილოსოფიას შეიძლება მივაკუთვნოთ რუსეთის საზოგადო მოღვაწე ჰეიდარ ჯემალი
 ---
+reference: ბრონქსში ჯერომის ავენიუ ჰყოფს გამჭოლ ქუჩებს აღმოსავლეთ და დასავლეთ ნაწილებად
+predicted: რონგში დერომიწ ავენილ პოფს გამ დოლფურქებს აღმოსავლეთ და დასავლეთ ნაწილებად
 ---
+reference: ჰაერი არის ჟანგბადის ის ძირითადი წყარო რომელსაც საჭიროებს ყველა ცოცხალი ორგანიზმი
+predicted: არი არის ჯამუბადესის ძირითადი წყარო რომელსაც საჭიროოებს ყველა ცოცხალი ორგანიზმი
 ---
+reference: ჯგუფი უმეტესწილად ასრულებს პოპმუსიკის ჟანრის სიმღერებს
+predicted: ჯგუფიუმეტესწევად ასრულებს პოპნუსიკის ჟანრის სიმრერებს
 ---
+reference: ბაბილინა მუდმივად ცდილობდა შესაძლებლობების ფარგლებში მიეღო ცოდნა და ახალი ინფორმაცია
+predicted: ბაბილინა მუდმივა ცდილობდა შესაძლებლობების ფარგლებში მიიღო ცოტნა და ახალი ინფორმაცია
 ---
+reference: მრევლის რწმენით რომელი ჯგუფიც გაიმარჯვებდა მთელი წლის მანძილზე სიუხვე და ბარაქა არ მოაკლდებოდა
+predicted: მრევრის რწმენით რომელიჯგუფის გაიმარჯვებდა მთელიჭლის მანძილზა სიუყვეტაბარაქა არ მოაკლდებოდა
 ---
+reference: ნინო ჩხეიძეს განსაკუთრებული ღვაწლი მიუძღვის ქუთაისისა და რუსთაველის თეატრების შემოქმედებით ცხოვრებაში
+predicted: მინო ჩხეიძეს განსაკუთრებული ღოვაწლი მიოცხვის ქუთაისისა და რუსთაველის თეატრების შემოქმედებით ცხოვრებაში
 ---
+reference: იგი სამი დიალექტისგან შედგება
+predicted: იგი სამი დიალეთის გან შედგება
+---
+reference: ფორმით სირაქლემებს წააგვანან
+predicted: ომიცი რაქლემებს ააგვანამ
+---
+reference: დანი დაიბადა კოლუმბუსში ოჰაიოში
+predicted: დონი დაიბაოდა კოლუმბუსში ოხვაიოში
+---
+reference: მშენებლობისათვის გამოიყო ადგილი ყოფილი აეროპორტის რაიონში
+predicted: შენებლობისათვის გამოიყო ადგილი ყოფილი აეროპორტის რაიონში
 ---
 ```
 import re
 import string
+from normalizer import normalizer
 def speech_file_to_array_fn(batch):
 dataset = load_dataset("common_voice", "ka", split="test")
 dataset = dataset.map(
     normalizer,
+    fn_kwargs={"remove_extra_space": True},
     remove_columns=list(set(dataset.column_names) - set(['sentence', 'path']))
 )
 **Test Result**:
+- WER: 43.86%
 ## Training & Report
 The Common Voice `train`, `validation` datasets were used for training.
+You can see the training states [here](https://wandb.ai/m3hrdadfi/wav2vec2_large_xlsr_ka/reports/Fine-Tuning-for-Wav2Vec2-Large-XLSR-53-Georgian--Vmlldzo1OTQyMzk?accessToken=ytf7jseje66a3byuheh68o6a7215thjviscv5k2ewl5hgq9yqr50yxbko0bnf1d3)
+The script used for training can be found [here](https://colab.research.google.com/github/m3hrdadfi/notebooks/blob/main/Fine_Tune_XLSR_Wav2Vec2_on_Georgian_ASR_with_%F0%9F%A4%97_Transformers_ipynb.ipynb)
+## Questions?
+Post a Github issue on the [Wav2Vec](https://github.com/m3hrdadfi/wav2vec) repo.

all_results.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-    "epoch": 30.0,
-    "eval_loss": 0.4455166161060333,
-    "eval_mem_cpu_alloc_delta": 52916700,
-    "eval_mem_cpu_peaked_delta": 92345080,
-    "eval_mem_gpu_alloc_delta": 0,
-    "eval_mem_gpu_peaked_delta": 5249111040,
-    "eval_runtime": 81.4513,
-    "eval_samples": 654,
-    "eval_samples_per_second": 8.029,
-    "eval_wer": 0.5288702928870292,
-    "init_mem_cpu_alloc_delta": 9478038,
-    "init_mem_cpu_peaked_delta": 18306,
-    "init_mem_gpu_alloc_delta": 1261911040,
-    "init_mem_gpu_peaked_delta": 0,
-    "total_flos": 8.556740517881789e+18,
-    "train_mem_cpu_alloc_delta": 12260352,
-    "train_mem_cpu_peaked_delta": 186508822,
-    "train_mem_gpu_alloc_delta": 3794085376,
-    "train_mem_gpu_peaked_delta": 6038033408,
-    "train_runtime": 8781.3793,
-    "train_samples": 1585,
-    "train_samples_per_second": 0.109
-}

config.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
   "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
-  "activation_dropout": 0.0,
   "apply_spec_augment": true,
   "architectures": [
     "Wav2Vec2ForCTC"
   ],
-  "attention_dropout": 0.1,
   "bos_token_id": 1,
   "conv_bias": true,
   "conv_dim": [
@@ -42,16 +42,16 @@
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.0,
   "final_dropout": 0.0,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
-  "hidden_dropout": 0.1,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.1,
   "mask_channel_length": 10,
   "mask_channel_min_space": 1,
   "mask_channel_other": 0.0,
@@ -62,7 +62,7 @@
   "mask_time_length": 10,
   "mask_time_min_space": 1,
   "mask_time_other": 0.0,
-  "mask_time_prob": 0.05,
   "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
@@ -71,6 +71,6 @@
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
   "pad_token_id": 0,
-  "transformers_version": "4.5.0.dev0",
   "vocab_size": 38
 }

 {
   "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.08247,
   "apply_spec_augment": true,
   "architectures": [
     "Wav2Vec2ForCTC"
   ],
+  "attention_dropout": 0.2744,
   "bos_token_id": 1,
   "conv_bias": true,
   "conv_dim": [
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.138,
   "final_dropout": 0.0,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
+  "hidden_dropout": 0.023,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.01938,
   "mask_channel_length": 10,
   "mask_channel_min_space": 1,
   "mask_channel_other": 0.0,
   "mask_time_length": 10,
   "mask_time_min_space": 1,
   "mask_time_other": 0.0,
+  "mask_time_prob": 0.05897,
   "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
   "pad_token_id": 0,
+  "transformers_version": "4.6.0.dev0",
   "vocab_size": 38
 }

eval_results.json DELETED Viewed

@@ -1,12 +0,0 @@
-{
-    "epoch": 30.0,
-    "eval_loss": 0.4455166161060333,
-    "eval_mem_cpu_alloc_delta": 52916700,
-    "eval_mem_cpu_peaked_delta": 92345080,
-    "eval_mem_gpu_alloc_delta": 0,
-    "eval_mem_gpu_peaked_delta": 5249111040,
-    "eval_runtime": 81.4513,
-    "eval_samples": 654,
-    "eval_samples_per_second": 8.029,
-    "eval_wer": 0.5288702928870292
-}

normalizer.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import re
+import string
+chars_to_ignore = [
+    ",", "?", ".", "!", "-", ";", ":", '""', "%", "'", '"', "�",
+    "#", "!", "؟", "?", "«", "»", "،", "(", ")", "؛", "'ٔ", "٬", 'ٔ', ",", "?",
+    ".", "!", "-", ";", ":", '"', "“", "%", "‘", "”", "�", "–", "…", "_", "”", '“', '„',
+]
+chars_to_ignore = f"""[{"".join(chars_to_ignore)}]"""
+dictionary_mapping = {
+    "\u200c": " ",
+    "\u200d": " ",
+    "\u200e": " ",
+    "\u200f": " ",
+    "\ufeff": " ",
+    "\u0307": " ",
+}
+def multiple_replace(text, chars_to_mapping):
+    pattern = "|".join(map(re.escape, chars_to_mapping.keys()))
+    return re.sub(pattern, lambda m: chars_to_mapping[m.group()], str(text))
+def remove_special_characters(text, chars_to_ignore_regex):
+    text = re.sub(chars_to_ignore_regex, '', text).lower() + " "
+    return text
+def normalizer_at_word_level(text):
+    words = text.split()
+    _text = []
+    for word in words:
+        # Normalizer at word level
+        _text.append(word)
+    return " ".join(_text) + " "
+def normalizer(batch, return_dict=True, filter_trivials=False, remove_extra_space=False):
+    text = batch["sentence"].lower().strip()
+    # Dictionary mapping
+    text = multiple_replace(text, dictionary_mapping)
+    text = re.sub(" +", " ", text)
+    # Remove specials
+    text = remove_special_characters(text, chars_to_ignore)
+    text = re.sub(" +", " ", text)
+    # Normalizer at word level
+    text = normalizer_at_word_level(text)
+    text = re.sub(" +", " ", text)
+    if remove_extra_space:
+        text = text.strip()
+    else:
+        text = text.strip() + " "
+    if filter_trivials:
+        if not len(text) > 2:
+            text = None
+    if not return_dict:
+        return text
+    batch["sentence"] = text
+    return batch

predictions.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

preprocessor_config.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "do_normalize": true,
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

 {
   "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c0938b613c1c3fe1abd582f27dfec45efeef27402c30a8bc0de2408aef51c21
 size 1262089623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f66ce10de79208bae9af02ca5236203be628ad2f37ceb4141bf9de3388fd6fd8
 size 1262089623

result.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1c42bc8fa4f5eca7ff0ab10d3692e0b33144189969b2b23f107e68c3f4e47803
-size 3183

train_results.json DELETED Viewed

@@ -1,15 +0,0 @@
-{
-    "epoch": 30.0,
-    "init_mem_cpu_alloc_delta": 9478038,
-    "init_mem_cpu_peaked_delta": 18306,
-    "init_mem_gpu_alloc_delta": 1261911040,
-    "init_mem_gpu_peaked_delta": 0,
-    "total_flos": 8.556740517881789e+18,
-    "train_mem_cpu_alloc_delta": 12260352,
-    "train_mem_cpu_peaked_delta": 186508822,
-    "train_mem_gpu_alloc_delta": 3794085376,
-    "train_mem_gpu_peaked_delta": 6038033408,
-    "train_runtime": 8781.3793,
-    "train_samples": 1585,
-    "train_samples_per_second": 0.109
-}

trainer_state.json CHANGED Viewed

@@ -1,297 +1,177 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
-  "global_step": 960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.56,
-      "learning_rate": 7.5e-05,
-      "loss": 13.0978,
-      "step": 50
-    },
-    {
-      "epoch": 1.56,
-      "eval_loss": 13.780136108398438,
-      "eval_runtime": 82.8799,
-      "eval_samples_per_second": 7.891,
-      "eval_wer": 1.0,
-      "step": 50
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 0.00015,
-      "loss": 7.3093,
-      "step": 100
-    },
-    {
-      "epoch": 3.12,
-      "eval_loss": 3.198237419128418,
-      "eval_runtime": 81.5893,
-      "eval_samples_per_second": 8.016,
-      "eval_wer": 1.0,
-      "step": 100
-    },
-    {
-      "epoch": 4.69,
-      "learning_rate": 0.000225,
-      "loss": 3.0745,
-      "step": 150
-    },
-    {
-      "epoch": 4.69,
-      "eval_loss": 3.1082892417907715,
-      "eval_runtime": 82.4037,
-      "eval_samples_per_second": 7.937,
-      "eval_wer": 1.0,
-      "step": 150
-    },
-    {
-      "epoch": 6.25,
-      "learning_rate": 0.0003,
-      "loss": 3.0551,
-      "step": 200
-    },
-    {
-      "epoch": 6.25,
-      "eval_loss": 3.0994772911071777,
-      "eval_runtime": 82.7226,
-      "eval_samples_per_second": 7.906,
-      "eval_wer": 1.0,
-      "step": 200
-    },
-    {
-      "epoch": 7.81,
-      "learning_rate": 0.00028026315789473683,
-      "loss": 3.0632,
-      "step": 250
-    },
-    {
-      "epoch": 7.81,
-      "eval_loss": 3.0916755199432373,
-      "eval_runtime": 83.5323,
-      "eval_samples_per_second": 7.829,
-      "eval_wer": 1.0,
-      "step": 250
-    },
-    {
-      "epoch": 9.38,
-      "learning_rate": 0.0002605263157894737,
-      "loss": 3.0391,
       "step": 300
     },
     {
-      "epoch": 9.38,
-      "eval_loss": 3.0707435607910156,
-      "eval_runtime": 82.7328,
-      "eval_samples_per_second": 7.905,
       "eval_wer": 1.0,
       "step": 300
     },
     {
-      "epoch": 10.94,
-      "learning_rate": 0.00024078947368421052,
-      "loss": 3.0321,
-      "step": 350
-    },
-    {
-      "epoch": 10.94,
-      "eval_loss": 3.0443670749664307,
-      "eval_runtime": 84.1437,
-      "eval_samples_per_second": 7.772,
-      "eval_wer": 1.0,
-      "step": 350
-    },
-    {
-      "epoch": 12.5,
-      "learning_rate": 0.00022105263157894733,
-      "loss": 3.0069,
-      "step": 400
-    },
-    {
-      "epoch": 12.5,
-      "eval_loss": 2.998474359512329,
-      "eval_runtime": 83.9178,
-      "eval_samples_per_second": 7.793,
-      "eval_wer": 1.0,
-      "step": 400
-    },
-    {
-      "epoch": 14.06,
-      "learning_rate": 0.0002013157894736842,
-      "loss": 2.9623,
-      "step": 450
     },
     {
-      "epoch": 14.06,
-      "eval_loss": 2.866849184036255,
-      "eval_runtime": 82.5906,
-      "eval_samples_per_second": 7.919,
       "eval_wer": 1.0,
-      "step": 450
-    },
-    {
-      "epoch": 15.62,
-      "learning_rate": 0.00018157894736842105,
-      "loss": 2.4771,
-      "step": 500
-    },
-    {
-      "epoch": 15.62,
-      "eval_loss": 1.5367902517318726,
-      "eval_runtime": 85.6456,
-      "eval_samples_per_second": 7.636,
-      "eval_wer": 0.9838912133891213,
-      "step": 500
-    },
-    {
-      "epoch": 17.19,
-      "learning_rate": 0.00016184210526315788,
-      "loss": 1.0561,
-      "step": 550
     },
     {
-      "epoch": 17.19,
-      "eval_loss": 0.6924143433570862,
-      "eval_runtime": 85.1658,
-      "eval_samples_per_second": 7.679,
-      "eval_wer": 0.7548117154811715,
-      "step": 550
     },
     {
-      "epoch": 18.75,
-      "learning_rate": 0.0001421052631578947,
-      "loss": 0.5288,
-      "step": 600
     },
     {
-      "epoch": 18.75,
-      "eval_loss": 0.5334728956222534,
-      "eval_runtime": 83.737,
-      "eval_samples_per_second": 7.81,
-      "eval_wer": 0.6569037656903766,
-      "step": 600
     },
     {
-      "epoch": 20.31,
-      "learning_rate": 0.00012236842105263157,
-      "loss": 0.3581,
-      "step": 650
     },
     {
-      "epoch": 20.31,
-      "eval_loss": 0.48591092228889465,
-      "eval_runtime": 86.2479,
-      "eval_samples_per_second": 7.583,
-      "eval_wer": 0.605857740585774,
-      "step": 650
     },
     {
-      "epoch": 21.88,
-      "learning_rate": 0.00010263157894736841,
-      "loss": 0.2638,
-      "step": 700
     },
     {
-      "epoch": 21.88,
-      "eval_loss": 0.4631027579307556,
-      "eval_runtime": 84.0825,
-      "eval_samples_per_second": 7.778,
-      "eval_wer": 0.5648535564853556,
-      "step": 700
     },
     {
-      "epoch": 23.44,
-      "learning_rate": 8.289473684210526e-05,
-      "loss": 0.2284,
-      "step": 750
     },
     {
-      "epoch": 23.44,
-      "eval_loss": 0.4597685933113098,
-      "eval_runtime": 86.122,
-      "eval_samples_per_second": 7.594,
-      "eval_wer": 0.5594142259414226,
-      "step": 750
     },
     {
-      "epoch": 25.0,
-      "learning_rate": 6.315789473684209e-05,
-      "loss": 0.1965,
-      "step": 800
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.4614764153957367,
-      "eval_runtime": 86.0272,
-      "eval_samples_per_second": 7.602,
-      "eval_wer": 0.5535564853556485,
-      "step": 800
     },
     {
-      "epoch": 26.56,
-      "learning_rate": 4.342105263157895e-05,
-      "loss": 0.1837,
-      "step": 850
     },
     {
-      "epoch": 26.56,
-      "eval_loss": 0.4499300718307495,
-      "eval_runtime": 89.3292,
-      "eval_samples_per_second": 7.321,
-      "eval_wer": 0.5349372384937239,
-      "step": 850
     },
     {
-      "epoch": 28.12,
-      "learning_rate": 2.3684210526315787e-05,
-      "loss": 0.187,
-      "step": 900
     },
     {
-      "epoch": 28.12,
-      "eval_loss": 0.45425695180892944,
-      "eval_runtime": 85.6275,
-      "eval_samples_per_second": 7.638,
-      "eval_wer": 0.5345188284518828,
-      "step": 900
     },
     {
-      "epoch": 29.69,
-      "learning_rate": 3.947368421052631e-06,
-      "loss": 0.1568,
-      "step": 950
     },
     {
-      "epoch": 29.69,
-      "eval_loss": 0.4458238184452057,
-      "eval_runtime": 84.9753,
-      "eval_samples_per_second": 7.696,
-      "eval_wer": 0.5290794979079498,
-      "step": 950
     },
     {
-      "epoch": 30.0,
-      "step": 960,
-      "total_flos": 8.556740517881789e+18,
-      "train_runtime": 8781.3793,
-      "train_samples_per_second": 0.109
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.4455166161060333,
-      "eval_runtime": 81.4513,
-      "eval_samples_per_second": 8.029,
-      "eval_wer": 0.5288702928870292,
-      "step": 960
     }
   ],
-  "max_steps": 960,
-  "num_train_epochs": 30,
-  "total_flos": 8.556740517881789e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 59.991596638655466,
+  "global_step": 3540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 5.08,
+      "learning_rate": 0.0003546,
+      "loss": 6.338,
       "step": 300
     },
     {
+      "epoch": 5.08,
+      "eval_loss": 3.1361563205718994,
+      "eval_runtime": 51.9297,
+      "eval_samples_per_second": 12.632,
       "eval_wer": 1.0,
       "step": 300
     },
     {
+      "epoch": 10.17,
+      "learning_rate": 0.0005715592105263158,
+      "loss": 3.1258,
+      "step": 600
     },
     {
+      "epoch": 10.17,
+      "eval_loss": 3.0660765171051025,
+      "eval_runtime": 50.6635,
+      "eval_samples_per_second": 12.948,
       "eval_wer": 1.0,
+      "step": 600
     },
     {
+      "epoch": 15.25,
+      "learning_rate": 0.0005132368421052633,
+      "loss": 1.4079,
+      "step": 900
     },
     {
+      "epoch": 15.25,
+      "eval_loss": 0.5029116272926331,
+      "eval_runtime": 51.4993,
+      "eval_samples_per_second": 12.738,
+      "eval_wer": 0.6116052520118593,
+      "step": 900
     },
     {
+      "epoch": 20.34,
+      "learning_rate": 0.00045491447368421056,
+      "loss": 0.1446,
+      "step": 1200
     },
     {
+      "epoch": 20.34,
+      "eval_loss": 0.5113032460212708,
+      "eval_runtime": 51.276,
+      "eval_samples_per_second": 12.794,
+      "eval_wer": 0.5307073274036426,
+      "step": 1200
     },
     {
+      "epoch": 25.42,
+      "learning_rate": 0.0003965921052631579,
+      "loss": 0.0714,
+      "step": 1500
     },
     {
+      "epoch": 25.42,
+      "eval_loss": 0.5406283140182495,
+      "eval_runtime": 51.4595,
+      "eval_samples_per_second": 12.748,
+      "eval_wer": 0.5006353240152478,
+      "step": 1500
     },
     {
+      "epoch": 30.5,
+      "learning_rate": 0.00033826973684210527,
+      "loss": 0.0459,
+      "step": 1800
     },
     {
+      "epoch": 30.5,
+      "eval_loss": 0.5775919556617737,
+      "eval_runtime": 51.4074,
+      "eval_samples_per_second": 12.761,
+      "eval_wer": 0.49767047861075814,
+      "step": 1800
     },
     {
+      "epoch": 35.59,
+      "learning_rate": 0.0002799473684210526,
+      "loss": 0.0372,
+      "step": 2100
     },
     {
+      "epoch": 35.59,
+      "eval_loss": 0.5846429467201233,
+      "eval_runtime": 51.8427,
+      "eval_samples_per_second": 12.654,
+      "eval_wer": 0.4805167301990682,
+      "step": 2100
     },
     {
+      "epoch": 40.67,
+      "learning_rate": 0.00022162500000000003,
+      "loss": 0.0297,
+      "step": 2400
     },
     {
+      "epoch": 40.67,
+      "eval_loss": 0.5748910903930664,
+      "eval_runtime": 51.453,
+      "eval_samples_per_second": 12.75,
+      "eval_wer": 0.4841168996188056,
+      "step": 2400
     },
     {
+      "epoch": 45.76,
+      "learning_rate": 0.0001633026315789474,
+      "loss": 0.0254,
+      "step": 2700
     },
     {
+      "epoch": 45.76,
+      "eval_loss": 0.592321515083313,
+      "eval_runtime": 51.3943,
+      "eval_samples_per_second": 12.764,
+      "eval_wer": 0.4614570097416349,
+      "step": 2700
     },
     {
+      "epoch": 50.84,
+      "learning_rate": 0.00010498026315789474,
+      "loss": 0.0198,
+      "step": 3000
     },
     {
+      "epoch": 50.84,
+      "eval_loss": 0.5621945261955261,
+      "eval_runtime": 51.5882,
+      "eval_samples_per_second": 12.716,
+      "eval_wer": 0.4404913172384583,
+      "step": 3000
     },
     {
+      "epoch": 55.92,
+      "learning_rate": 4.665789473684211e-05,
+      "loss": 0.0193,
+      "step": 3300
     },
     {
+      "epoch": 55.92,
+      "eval_loss": 0.5657602548599243,
+      "eval_runtime": 71.8217,
+      "eval_samples_per_second": 9.134,
+      "eval_wer": 0.4470563320626853,
+      "step": 3300
     },
     {
+      "epoch": 59.99,
+      "step": 3540,
+      "total_flos": 3.4970554953107223e+19,
+      "train_runtime": 23737.912,
+      "train_samples_per_second": 0.149
     }
   ],
+  "max_steps": 3540,
+  "num_train_epochs": 60,
+  "total_flos": 3.4970554953107223e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b09499473860372d1a5755c32562e264aa7cbc7d9f4c4491ed862c399a413bb7
-size 2351

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f065e737230c868e6e56300bb71bf5cfa9b8a6454b4c59dcdba32b156a0a13c
+size 2415