bjelkenhed
/

whisper-large-sv

@@ -8,7 +8,7 @@ python run_speech_recognition_seq2seq_streaming.py \
         --train_split_name="train" \
         --eval_split_name="test" \
         --model_index_name="Whisper Large Swedish" \
-        --max_steps="20" \
         --output_dir="./" \
         --per_device_train_batch_size="8" \
         --per_device_eval_batch_size="4" \
@@ -17,7 +17,7 @@ python run_speech_recognition_seq2seq_streaming.py \
         --learning_rate="1e-5" \
         --warmup_steps="500" \
         --evaluation_strategy="steps" \
-        --eval_steps="10" \
         --save_strategy="steps" \
         --save_steps="1000" \
         --generation_max_length="225" \

         --train_split_name="train" \
         --eval_split_name="test" \
         --model_index_name="Whisper Large Swedish" \
+        --max_steps="5000" \
         --output_dir="./" \
         --per_device_train_batch_size="8" \
         --per_device_eval_batch_size="4" \
         --learning_rate="1e-5" \
         --warmup_steps="500" \
         --evaluation_strategy="steps" \
+        --eval_steps="1000" \
         --save_strategy="steps" \
         --save_steps="1000" \
         --generation_max_length="225" \

run_speech_recognition_seq2seq_streaming.py CHANGED Viewed

@@ -127,7 +127,6 @@ class DataTrainingArguments:
     """
     Arguments pertaining to what data we are going to input our model for training and eval.
     """
     trainset_name: str = field(
         default=None, metadata={"help": "The name of the trainset to use (via the datasets library)."}
     )
@@ -136,7 +135,6 @@ class DataTrainingArguments:
         default=None, metadata={"help": "The configuration name of the trainset to use (via the datasets library)."}
     )
     dataset_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
@@ -403,6 +401,9 @@ def main():
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
     feature_extractor = AutoFeatureExtractor.from_pretrained(
         model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,

     """
     Arguments pertaining to what data we are going to input our model for training and eval.
     """
     trainset_name: str = field(
         default=None, metadata={"help": "The name of the trainset to use (via the datasets library)."}
     )
         default=None, metadata={"help": "The configuration name of the trainset to use (via the datasets library)."}
     )
     dataset_name: str = field(
         default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
     )
     config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
+    if training_args.gradient_checkpointing:
+        config.update({"use_cache": False})
     feature_extractor = AutoFeatureExtractor.from_pretrained(
         model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
         cache_dir=model_args.cache_dir,