sanchit-gandhi HF staff commited on Feb 23, 2022

Commit

daff7b8

•

1 Parent(s): ba578f3

Training in progress, step 500

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitignore +1 -0
.idea/.gitignore +8 -0
.idea/inspectionProfiles/profiles_settings.xml +6 -0
.idea/misc.xml +22 -0
.idea/modules.xml +8 -0
.idea/vcs.xml +6 -0
.idea/wav2vec2-2-gpt2-grid-search.iml +12 -0
config.json +265 -0
create_model.py +58 -0
merges.txt +0 -0
preprocessor_config.json +9 -0
pytorch_model.bin +3 -0
run_grid_search.sh +49 -0
run_librispeech.sh +36 -0
run_speech_recognition_seq2seq.py +539 -0
runs/Feb23_15-17-13_sanchit--v100/1645629478.673521/events.out.tfevents.1645629478.sanchit--v100.119082.1 +3 -0
runs/Feb23_15-17-13_sanchit--v100/events.out.tfevents.1645629478.sanchit--v100.119082.0 +3 -0
runs/Feb23_15-18-28_sanchit--v100/1645629548.7865512/events.out.tfevents.1645629548.sanchit--v100.119273.1 +3 -0
runs/Feb23_15-18-28_sanchit--v100/events.out.tfevents.1645629548.sanchit--v100.119273.0 +3 -0
runs/Feb23_15-20-29_sanchit--v100/1645629669.5136263/events.out.tfevents.1645629669.sanchit--v100.119533.1 +3 -0
runs/Feb23_15-20-29_sanchit--v100/events.out.tfevents.1645629669.sanchit--v100.119533.0 +3 -0
runs/Feb23_15-21-38_sanchit--v100/1645629738.8586485/events.out.tfevents.1645629738.sanchit--v100.119714.1 +3 -0
runs/Feb23_15-21-38_sanchit--v100/events.out.tfevents.1645629738.sanchit--v100.119714.0 +3 -0
runs/Feb23_15-22-45_sanchit--v100/1645629807.9885855/events.out.tfevents.1645629807.sanchit--v100.119898.1 +3 -0
runs/Feb23_15-22-45_sanchit--v100/events.out.tfevents.1645629807.sanchit--v100.119898.0 +3 -0
runs/Feb23_15-24-03_sanchit--v100/1645629883.5906208/events.out.tfevents.1645629883.sanchit--v100.120087.1 +3 -0
runs/Feb23_15-24-03_sanchit--v100/events.out.tfevents.1645629883.sanchit--v100.120087.0 +3 -0
runs/Feb23_15-28-39_sanchit--v100/1645630160.6231816/events.out.tfevents.1645630160.sanchit--v100.120564.1 +3 -0
runs/Feb23_15-28-39_sanchit--v100/events.out.tfevents.1645630160.sanchit--v100.120564.0 +3 -0
runs/Feb23_15-31-07_sanchit--v100/1645630308.0543547/events.out.tfevents.1645630308.sanchit--v100.120839.1 +3 -0
runs/Feb23_15-31-07_sanchit--v100/events.out.tfevents.1645630308.sanchit--v100.120839.0 +3 -0
runs/Feb23_15-32-51_sanchit--v100/1645630413.4061124/events.out.tfevents.1645630413.sanchit--v100.121092.1 +3 -0
runs/Feb23_15-32-51_sanchit--v100/events.out.tfevents.1645630413.sanchit--v100.121092.0 +3 -0
runs/Feb23_15-38-52_sanchit--v100/1645630773.5256608/events.out.tfevents.1645630773.sanchit--v100.121718.1 +3 -0
runs/Feb23_15-38-52_sanchit--v100/events.out.tfevents.1645630773.sanchit--v100.121718.0 +3 -0
runs/Feb23_15-46-20_sanchit--v100/1645631221.2384057/events.out.tfevents.1645631221.sanchit--v100.122633.1 +3 -0
runs/Feb23_15-46-20_sanchit--v100/events.out.tfevents.1645631221.sanchit--v100.122633.0 +3 -0
runs/Feb23_15-47-56_sanchit--v100/1645631316.8539507/events.out.tfevents.1645631316.sanchit--v100.122880.1 +3 -0
runs/Feb23_15-47-56_sanchit--v100/events.out.tfevents.1645631316.sanchit--v100.122880.0 +3 -0
runs/Feb23_15-49-04_sanchit--v100/1645631387.0714893/events.out.tfevents.1645631387.sanchit--v100.123095.1 +3 -0
runs/Feb23_15-49-04_sanchit--v100/events.out.tfevents.1645631387.sanchit--v100.123095.0 +3 -0
runs/Feb23_15-57-27_sanchit--v100/1645631887.9999144/events.out.tfevents.1645631888.sanchit--v100.124050.1 +3 -0
runs/Feb23_15-57-27_sanchit--v100/events.out.tfevents.1645631887.sanchit--v100.124050.0 +3 -0
runs/Feb23_16-07-05_sanchit--v100/1645632478.8360717/events.out.tfevents.1645632478.sanchit--v100.125003.1 +3 -0
runs/Feb23_16-07-05_sanchit--v100/events.out.tfevents.1645632478.sanchit--v100.125003.0 +3 -0
runs/Feb23_16-12-14_sanchit--v100/1645632776.264174/events.out.tfevents.1645632776.sanchit--v100.125542.1 +3 -0
runs/Feb23_16-12-14_sanchit--v100/events.out.tfevents.1645632776.sanchit--v100.125542.0 +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ checkpoint-*/

.idea/.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+# Default ignored files
+/shelf/
+/workspace.xml
+# Editor-based HTTP Client requests
+/httpRequests/
+# Datasource local storage ignored files
+/dataSources/
+/dataSources.local.xml

.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

.idea/misc.xml ADDED Viewed

	@@ -0,0 +1,22 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.9" project-jdk-type="Python SDK" />
+  <component name="UnattendedHostPersistenceState">
+    <option name="openedFilesInfos">
+      <list>
+        <OpenedFileInfo>
+          <option name="caretOffset" value="0" />
+          <option name="fileUrl" value="file://$PROJECT_DIR$/create_model.py" />
+        </OpenedFileInfo>
+        <OpenedFileInfo>
+          <option name="caretOffset" value="4372" />
+          <option name="fileUrl" value="file://$PROJECT_DIR$/run_speech_recognition_seq2seq.py" />
+        </OpenedFileInfo>
+        <OpenedFileInfo>
+          <option name="caretOffset" value="0" />
+          <option name="fileUrl" value="file://$PROJECT_DIR$/run_librispeech.sh" />
+        </OpenedFileInfo>
+      </list>
+    </option>
+  </component>
+</project>

.idea/modules.xml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/wav2vec2-2-gpt2-grid-search.iml" filepath="$PROJECT_DIR$/.idea/wav2vec2-2-gpt2-grid-search.iml" />
+    </modules>
+  </component>
+</project>

.idea/vcs.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="$PROJECT_DIR$" vcs="Git" />
+  </component>
+</project>

.idea/wav2vec2-2-gpt2-grid-search.iml ADDED Viewed

	@@ -0,0 +1,12 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="inheritedJdk" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+  <component name="PyDocumentationSettings">
+    <option name="format" value="PLAIN" />
+    <option name="myDocStringFormat" value="Plain" />
+  </component>
+</module>

config.json ADDED Viewed

	@@ -0,0 +1,265 @@

+{
+  "_name_or_path": "./",
+  "architectures": [
+    "SpeechEncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "gpt2-medium",
+    "activation_function": "gelu_new",
+    "add_cross_attention": true,
+    "architectures": [
+      "GPT2LMHeadModel"
+    ],
+    "attn_pdrop": 0.0,
+    "bad_words_ids": null,
+    "bos_token_id": 50256,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "embd_pdrop": 0.0,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 50256,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_epsilon": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "gpt2",
+    "n_ctx": 1024,
+    "n_embd": 1024,
+    "n_head": 16,
+    "n_inner": null,
+    "n_layer": 24,
+    "n_positions": 1024,
+    "n_special": 0,
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "predict_special_tokens": true,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "reorder_and_upcast_attn": false,
+    "repetition_penalty": 1.0,
+    "resid_pdrop": 0.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_attn_by_inverse_layer_idx": false,
+    "scale_attn_weights": true,
+    "sep_token_id": null,
+    "summary_activation": null,
+    "summary_first_dropout": 0.0,
+    "summary_proj_to_labels": true,
+    "summary_type": "cls_index",
+    "summary_use_proj": true,
+    "task_specific_params": {
+      "text-generation": {
+        "do_sample": true,
+        "max_length": 50
+      }
+    },
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.17.0.dev0",
+    "use_bfloat16": false,
+    "use_cache": false,
+    "vocab_size": 50257
+  },
+  "decoder_start_token_id": 50256,
+  "encoder": {
+    "_name_or_path": "facebook/wav2vec2-large-lv60",
+    "activation_dropout": 0.0,
+    "adapter_kernel_size": 3,
+    "adapter_stride": 2,
+    "add_adapter": true,
+    "add_cross_attention": false,
+    "apply_spec_augment": false,
+    "architectures": [
+      "Wav2Vec2ForPreTraining"
+    ],
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "bos_token_id": 1,
+    "chunk_size_feed_forward": 0,
+    "classifier_proj_size": 256,
+    "codevector_dim": 768,
+    "contrastive_logits_temperature": 0.1,
+    "conv_bias": true,
+    "conv_dim": [
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512
+    ],
+    "conv_kernel": [
+      10,
+      3,
+      3,
+      3,
+      3,
+      2,
+      2
+    ],
+    "conv_stride": [
+      5,
+      2,
+      2,
+      2,
+      2,
+      2,
+      2
+    ],
+    "cross_attention_hidden_size": null,
+    "ctc_loss_reduction": "sum",
+    "ctc_zero_infinity": false,
+    "decoder_start_token_id": null,
+    "diversity_loss_weight": 0.1,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "do_stable_layer_norm": true,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "feat_extract_activation": "gelu",
+    "feat_extract_dropout": 0.0,
+    "feat_extract_norm": "layer",
+    "feat_proj_dropout": 0.0,
+    "feat_quantizer_dropout": 0.0,
+    "final_dropout": 0.0,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout": 0.0,
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "layerdrop": 0.0,
+    "length_penalty": 1.0,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "wav2vec2",
+    "no_repeat_ngram_size": 0,
+    "num_adapter_layers": 3,
+    "num_attention_heads": 16,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_codevector_groups": 2,
+    "num_codevectors_per_group": 320,
+    "num_conv_pos_embedding_groups": 16,
+    "num_conv_pos_embeddings": 128,
+    "num_feat_extract_layers": 7,
+    "num_hidden_layers": 24,
+    "num_negatives": 100,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_size": 1024,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "prefix": null,
+    "problem_type": null,
+    "proj_codevector_dim": 768,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "task_specific_params": null,
+    "tdnn_dilation": [
+      1,
+      2,
+      3,
+      1,
+      1
+    ],
+    "tdnn_dim": [
+      512,
+      512,
+      512,
+      512,
+      1500
+    ],
+    "tdnn_kernel": [
+      5,
+      3,
+      3,
+      1,
+      1
+    ],
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.17.0.dev0",
+    "use_bfloat16": false,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 32,
+    "xvector_output_dim": 512
+  },
+  "eos_token_id": 50256,
+  "is_encoder_decoder": true,
+  "max_length": 50,
+  "model_type": "speech-encoder-decoder",
+  "pad_token_id": 50256,
+  "processor_class": "Wav2Vec2Processor",
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": null,
+  "use_cache": false
+}

create_model.py ADDED Viewed

	@@ -0,0 +1,58 @@

+from transformers import SpeechEncoderDecoderModel, AutoFeatureExtractor, GPT2Tokenizer
+import torch
+# checkpoints to leverage
+encoder_id = "facebook/wav2vec2-large-lv60"
+decoder_id = "gpt2-medium"
+model = SpeechEncoderDecoderModel.from_encoder_decoder_pretrained(encoder_id, decoder_id, encoder_add_adapter=True)
+# set all encoder regularisation to zero
+model.config.encoder.feat_proj_dropout = 0.0
+model.config.encoder.final_dropout = 0.0
+model.config.encoder.activation_dropout = 0.0
+model.config.encoder.apply_spec_augment = False
+model.config.encoder.attention_dropout = 0.0
+model.config.encoder.feat_extract_dropout = 0.0
+model.config.encoder.feat_proj_dropout = 0.0
+model.config.encoder.hidden_dropout = 0.0
+model.config.encoder.hidden_dropout_prob = 0.0
+model.config.encoder.layerdrop = 0.0
+model.config.encoder.mask_feature_prob = 0.0
+model.config.encoder.mask_time_prob = 0.0
+# set all decoder regularisation to zero
+model.config.decoder.attn_pdrop = 0.0
+model.config.decoder.embd_pdrop = 0.0
+model.config.decoder.resid_pdrop = 0.0
+model.config.decoder.summary_first_dropout = 0.0
+# force GPT2 to append EOS to begin and end of seq
+def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
+    outputs = [self.bos_token_id] + token_ids_0 + [self.eos_token_id]
+    return outputs
+GPT2Tokenizer.build_inputs_with_special_tokens = build_inputs_with_special_tokens
+gpt2_tokenizer = GPT2Tokenizer.from_pretrained(decoder_id)
+# set pad_token_id to unk_token_id, note: unk_token_id == eos_token_id == bos_token_id
+gpt2_tokenizer.pad_token = gpt2_tokenizer.unk_token
+gpt2_tokenizer.save_pretrained("./")
+model.config.pad_token_id = gpt2_tokenizer.pad_token_id
+model.config.decoder_start_token_id = model.decoder.config.bos_token_id
+model.config.eos_token_id = model.decoder.config.eos_token_id
+model.config.max_length = 50
+model.config.num_beams = 1
+model.config.use_cache = False
+model.config.decoder.use_cache = False
+model.config.processor_class = "Wav2Vec2Processor"
+# check if generation works
+out = model.generate(torch.ones((1, 2000)))
+model.save_pretrained("./")
+feature_extractor = AutoFeatureExtractor.from_pretrained(encoder_id)
+feature_extractor.save_pretrained("./")

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e8581f7b9887fe3365fc16e55f698a8dbcb5f66934301a1001994acaeec98b3
+size 3210531882

run_grid_search.sh ADDED Viewed

	@@ -0,0 +1,49 @@

+#!/usr/bin/env bash
+declare -a learning_rates=("1e-5" "3e-5" "1e-4" "3e-4" "1e-3")
+declare -a batch_sizes=("8" "12" "14" "16")
+declare -a gradient_accumulation_step_sizes=("2" "4" "8")
+for learning_rate in "${learning_rates[@]}"; do
+    for batch_size in "${batch_sizes[@]}"; do
+        for gradient_accumulation_steps in "${gradient_accumulation_step_sizes[@]}"; do
+	    python create_model.py
+            CUDA_VISIBLE_DEVICES=0 python run_speech_recognition_seq2seq.py \
+                --dataset_name="librispeech_asr" \
+                --model_name_or_path="./" \
+                --tokenizer_name="./" \
+                --dataset_config_name="clean" \
+                --train_split_name="train.100" \
+                --eval_split_name="validation" \
+                --output_dir="./" \
+                --preprocessing_num_workers="1" \
+                --length_column_name="input_length" \
+                --overwrite_output_dir \
+                --num_train_epochs="1" \
+                --per_device_train_batch_size=$batch_size \
+                --per_device_eval_batch_size=$batch_size \
+                --gradient_accumulation_steps=$gradient_accumulation_steps \
+                --generation_max_length="40" \
+                --generation_num_beams="1" \
+                --learning_rate=$learning_rate \
+                --warmup_steps="500" \
+                --evaluation_strategy="steps" \
+                --text_column_name="text" \
+                --save_steps="500" \
+                --eval_steps="500" \
+                --logging_steps="1" \
+                --save_total_limit="1" \
+                --freeze_feature_encoder \
+                --gradient_checkpointing \
+                --fp16 \
+                --group_by_length \
+                --predict_with_generate \
+                --do_lower_case \
+                --do_train \
+                --do_eval \
+                --push_to_hub \
+                --use_auth_token
+        done
+    done
+done

run_librispeech.sh ADDED Viewed

	@@ -0,0 +1,36 @@

+#!/usr/bin/env bash
+CUDA_VISIBLE_DEVICES=1 python run_speech_recognition_seq2seq.py \
+	--dataset_name="librispeech_asr" \
+	--model_name_or_path="./" \
+	--tokenizer_name="./" \
+	--dataset_config_name="clean" \
+	--train_split_name="train.100" \
+	--eval_split_name="validation" \
+	--output_dir="./" \
+	--preprocessing_num_workers="1" \
+	--length_column_name="input_length" \
+	--overwrite_output_dir \
+	--num_train_epochs="3" \
+	--per_device_train_batch_size="14" \
+	--per_device_eval_batch_size="14" \
+	--gradient_accumulation_steps="8" \
+	--generation_max_length="40" \
+	--generation_num_beams="1" \
+	--learning_rate="1e-3" \
+	--warmup_steps="500" \
+	--evaluation_strategy="steps" \
+	--text_column_name="text" \
+	--save_steps="500" \
+	--eval_steps="500" \
+	--logging_steps="1" \
+	--save_total_limit="1" \
+	--freeze_feature_encoder \
+	--gradient_checkpointing \
+	--fp16 \
+	--group_by_length \
+	--predict_with_generate \
+	--do_lower_case \
+	--do_eval --do_train \
+	--push_to_hub \
+	--use_auth_token

run_speech_recognition_seq2seq.py ADDED Viewed

	@@ -0,0 +1,539 @@

+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2021 The HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Fine-tuning the library models for sequence to sequence speech recognition.
+"""
+# You can also adapt this script on your own sequence to sequence speech
+# recognition task. Pointers for this are left as comments.
+import logging
+import os
+import sys
+from dataclasses import dataclass, field
+from typing import Any, Dict, List, Optional, Union
+import datasets
+import torch
+from datasets import DatasetDict, load_dataset, load_metric
+import bitsandbytes as bnb
+import transformers
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModelForSpeechSeq2Seq,
+    AutoProcessor,
+    AutoTokenizer,
+    HfArgumentParser,
+    Seq2SeqTrainer,
+    Seq2SeqTrainingArguments,
+    set_seed,
+)
+from transformers.trainer_pt_utils import get_parameter_names
+from transformers.trainer_utils import get_last_checkpoint, is_main_process
+from transformers.utils import check_min_version
+from transformers.utils.versions import require_version
+from transformers.optimization import Adafactor
+# Will error if the minimal version of Transformers is not installed. Remove at your own risks.
+check_min_version("4.17.0.dev0")
+require_version("datasets>=1.8.0", "To fix: pip install -r examples/pytorch/summarization/requirements.txt")
+logger = logging.getLogger(__name__)
+@dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune from.
+    """
+    model_name_or_path: str = field(
+        metadata={"help": "Path to pretrained model or model identifier from huggingface.co/models"}
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    feature_extractor_name: Optional[str] = field(
+        default=None, metadata={"help": "feature extractor name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None,
+        metadata={"help": "Where to store the pretrained models downloaded from huggingface.co"},
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    model_revision: str = field(
+        default="main",
+        metadata={"help": "The specific model version to use (can be a branch name, tag name or commit id)."},
+    )
+    use_auth_token: bool = field(
+        default=False,
+        metadata={
+            "help": "Will use the token generated when running `transformers-cli login` (necessary to use this script "
+            "with private models)."
+        },
+    )
+    freeze_feature_encoder: bool = field(
+        default=True, metadata={"help": "Whether to freeze the feature encoder layers of the model."}
+    )
+@dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+    dataset_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    text_column: Optional[str] = field(
+        default=None,
+        metadata={"help": "The name of the column in the datasets containing the full texts (for summarization)."},
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+            "value if set."
+        },
+    )
+    audio_column_name: str = field(
+        default="audio",
+        metadata={"help": "The name of the dataset column containing the audio data. Defaults to 'audio'"},
+    )
+    text_column_name: str = field(
+        default="text",
+        metadata={"help": "The name of the dataset column containing the text data. Defaults to 'text'"},
+    )
+    max_duration_in_seconds: float = field(
+        default=20.0,
+        metadata={
+            "help": "Truncate audio files that are longer than `max_duration_in_seconds` seconds to 'max_duration_in_seconds`"
+        },
+    )
+    min_duration_in_seconds: float = field(
+        default=0.0, metadata={"help": "Filter audio files that are shorter than `min_duration_in_seconds` seconds"}
+    )
+    preprocessing_only: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to only do data preprocessing and skip training. "
+            "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
+            "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
+            "so that the cached datasets can consequently be loaded in distributed training"
+        },
+    )
+    train_split_name: str = field(
+        default="train",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    eval_split_name: str = field(
+        default="test",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    do_lower_case: bool = field(
+        default=True,
+        metadata={"help": "Whether the target text should be lower cased."},
+    )
+@dataclass
+class DataCollatorSpeechSeq2SeqWithPadding:
+    """
+    Data collator that will dynamically pad the inputs received.
+    Args:
+        processor ([`Wav2Vec2Processor`])
+            The processor used for proccessing the data.
+        decoder_start_token_id (`int`)
+            The begin-of-sentence of the decoder.
+    """
+    processor: Any
+    decoder_start_token_id: int
+    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
+        # split inputs and labels since they have to be of different lenghts and need
+        # different padding methods
+        input_features = [{"input_values": feature["input_values"]} for feature in features]
+        label_features = [{"input_ids": feature["labels"]} for feature in features]
+        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")
+        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")
+        # replace padding with -100 to ignore loss correctly
+        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)
+        # if bos token is appended in previous tokenization step,
+        # cut bos token here as it's append later anyways
+        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
+            labels = labels[:, 1:]
+        batch["labels"] = labels
+        return batch
+def main():
+    # 1. Parse input arguments
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, Seq2SeqTrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # 2. Setup logging
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    log_level = training_args.get_process_log_level()
+    logger.setLevel(log_level)
+    datasets.utils.logging.set_verbosity(log_level)
+    transformers.utils.logging.set_verbosity(log_level)
+    transformers.utils.logging.enable_default_handler()
+    transformers.utils.logging.enable_explicit_format()
+    logger.setLevel(logging.INFO if is_main_process(training_args.local_rank) else logging.WARN)
+    # Log on each process the small summary:
+    logger.warning(
+        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
+        f"distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
+    )
+    logger.info(f"Training/evaluation parameters {training_args}")
+    # Set the verbosity to info of the Transformers logger (on main process only):
+    if is_main_process(training_args.local_rank):
+        transformers.utils.logging.set_verbosity_info()
+    logger.info("Training/evaluation parameters %s", training_args)
+    # 3. Detecting last checkpoint and eventualy continue from last checkpoint
+    last_checkpoint = None
+    if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
+        last_checkpoint = get_last_checkpoint(training_args.output_dir)
+        if last_checkpoint is None and len(os.listdir(training_args.output_dir)) > 0:
+            raise ValueError(
+                f"Output directory ({training_args.output_dir}) already exists and is not empty. "
+                "Use --overwrite_output_dir to overcome."
+            )
+        elif last_checkpoint is not None and training_args.resume_from_checkpoint is None:
+            logger.info(
+                f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
+                "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
+            )
+    # Set seed before initializing model.
+    set_seed(training_args.seed)
+    # 4. Load dataset
+    raw_datasets = DatasetDict()
+    if training_args.do_train:
+        raw_datasets["train"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.train_split_name
+        )
+    if training_args.do_eval:
+        raw_datasets["eval"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.eval_split_name
+        )
+    if data_args.audio_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--audio_column_name` to the correct audio column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    if data_args.text_column_name not in next(iter(raw_datasets.values())).column_names:
+        raise ValueError(
+            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--text_column_name` to the correct text column - one of "
+            f"{', '.join(next(iter(raw_datasets.values())).column_names)}."
+        )
+    # 5. Load pretrained model, tokenizer, and feature extractor
+    #
+    # Distributed training:
+    # The .from_pretrained methods guarantee that only one local process can concurrently
+    config = AutoConfig.from_pretrained(
+        model_args.config_name if model_args.config_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        use_fast=model_args.use_fast_tokenizer,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    model = AutoModelForSpeechSeq2Seq.from_pretrained(
+        model_args.model_name_or_path,
+        config=config,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    if model.config.decoder_start_token_id is None:
+        raise ValueError("Make sure that `config.decoder_start_token_id` is correctly defined")
+    if model_args.freeze_feature_encoder:
+        model.freeze_feature_encoder()
+    # 6. Resample speech dataset if necassary
+    dataset_sampling_rate = next(iter(raw_datasets.values())).features[data_args.audio_column_name].sampling_rate
+    if dataset_sampling_rate != feature_extractor.sampling_rate:
+        raw_datasets = raw_datasets.cast_column(
+            data_args.audio_column_name, datasets.features.Audio(sampling_rate=feature_extractor.sampling_rate)
+        )
+    # 7. Preprocessing the datasets.
+    # We need to read the audio files as arrays and tokenize the targets.
+    max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
+    min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
+    audio_column_name = data_args.audio_column_name
+    num_workers = data_args.preprocessing_num_workers
+    text_column_name = data_args.text_column_name
+    model_input_name = feature_extractor.model_input_names[0]
+    do_lower_case = data_args.do_lower_case
+    if data_args.max_train_samples is not None:
+        raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
+    if data_args.max_eval_samples is not None:
+        raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
+    def prepare_dataset(batch):
+        # process audio
+        sample = batch[audio_column_name]
+        inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])
+        # process audio length
+        batch[model_input_name] = inputs.input_values[0]
+        batch["input_length"] = len(batch["input_values"])
+        # process targets
+        input_str = batch[text_column_name].lower() if do_lower_case else batch[text_column_name]
+        batch["labels"] = tokenizer(input_str).input_ids
+        return batch
+    with training_args.main_process_first(desc="dataset map pre-processing"):
+        vectorized_datasets = raw_datasets.map(
+            prepare_dataset,
+            remove_columns=next(iter(raw_datasets.values())).column_names,
+            num_proc=data_args.preprocessing_num_workers,
+            desc="preprocess train dataset",
+        )
+    # filter data that is shorter than min_input_length or longer than
+    # max_input_length
+    def is_audio_in_length_range(length):
+        return length > min_input_length and length < max_input_length
+    vectorized_datasets = vectorized_datasets.filter(
+        is_audio_in_length_range,
+        num_proc=num_workers,
+        input_columns=["input_length"],
+    )
+    # for large datasets it is advised to run the preprocessing on a
+    # single machine first with `args.preprocessing_only` since there will mostly likely
+    # be a timeout when running the script in distributed mode.
+    # In a second step `args.preprocessing_only` can then be set to `False` to load the
+    # cached dataset
+    if data_args.preprocessing_only:
+        cache = {k: v.cache_files for k, v in vectorized_datasets.items()}
+        logger.info(f"Data preprocessing finished. Files cached at {cache}.")
+        return
+    # 8. Load Metric
+    metric = load_metric("wer")
+    def compute_metrics(pred):
+        pred_ids = pred.predictions
+        pred.label_ids[pred.label_ids == -100] = tokenizer.pad_token_id
+        pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
+        # we do not want to group tokens when computing the metrics
+        label_str = tokenizer.batch_decode(pred.label_ids, skip_special_tokens=True)
+        wer = metric.compute(predictions=pred_str, references=label_str)
+        return {"wer": wer}
+    # 9. Create a single speech processor
+    if is_main_process(training_args.local_rank):
+        # save feature extractor, tokenizer and config
+        feature_extractor.save_pretrained(training_args.output_dir)
+        tokenizer.save_pretrained(training_args.output_dir)
+        config.save_pretrained(training_args.output_dir)
+    processor = AutoProcessor.from_pretrained(training_args.output_dir)
+    # 10. Define data collator
+    data_collator = DataCollatorSpeechSeq2SeqWithPadding(
+        processor=processor, decoder_start_token_id=model.config.decoder_start_token_id
+    )
+    decay_parameters = get_parameter_names(model, [torch.nn.LayerNorm])
+    decay_parameters = [name for name in decay_parameters if "bias" not in name]
+    optimizer_grouped_parameters = [
+        {
+            "params": [p for n, p in model.named_parameters() if n in decay_parameters],
+            "weight_decay": training_args.weight_decay,
+        },
+        {
+            "params": [p for n, p in model.named_parameters() if n not in decay_parameters],
+            "weight_decay": 0.0,
+        },
+    ]
+    optimizer = bnb.optim.Adam8bit(
+        params=optimizer_grouped_parameters,
+        lr=training_args.learning_rate,
+        betas=(training_args.adam_beta1, training_args.adam_beta2),
+        eps=training_args.adam_epsilon,
+    )
+    """optimizer = Adafactor(
+        params=optimizer_grouped_parameters,
+        lr=training_args.learning_rate,
+        beta1=training_args.adam_beta1,
+        eps=training_args.adam_epsilon,
+        relative_step=False,
+    )"""
+    optimizers = (optimizer, None)
+    #11. Initialize Trainer
+    trainer = Seq2SeqTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=vectorized_datasets["train"] if training_args.do_train else None,
+        eval_dataset=vectorized_datasets["eval"] if training_args.do_eval else None,
+        tokenizer=feature_extractor,
+        data_collator=data_collator,
+        compute_metrics=compute_metrics if training_args.predict_with_generate else None,
+		optimizers=optimizers,
+    )
+    # 12. Training
+    if training_args.do_train:
+        checkpoint = None
+        if training_args.resume_from_checkpoint is not None:
+            checkpoint = training_args.resume_from_checkpoint
+        elif last_checkpoint is not None:
+            checkpoint = last_checkpoint
+        train_result = trainer.train(resume_from_checkpoint=checkpoint)
+        trainer.save_model()  # Saves the feature extractor too for easy upload
+        metrics = train_result.metrics
+        max_train_samples = (
+            data_args.max_train_samples
+            if data_args.max_train_samples is not None
+            else len(vectorized_datasets["train"])
+        )
+        metrics["train_samples"] = min(max_train_samples, len(vectorized_datasets["train"]))
+        trainer.log_metrics("train", metrics)
+        trainer.save_metrics("train", metrics)
+        trainer.save_state()
+    # 13. Evaluation
+    results = {}
+    if training_args.do_eval:
+        logger.info("*** Evaluate ***")
+        metrics = trainer.evaluate(
+            metric_key_prefix="eval", max_length=model.config.max_length, num_beams=model.config.num_beams
+        )
+        max_eval_samples = (
+            data_args.max_eval_samples if data_args.max_eval_samples is not None else len(vectorized_datasets["eval"])
+        )
+        metrics["eval_samples"] = min(max_eval_samples, len(vectorized_datasets["eval"]))
+        trainer.log_metrics("eval", metrics)
+        trainer.save_metrics("eval", metrics)
+    # 14. Write Training Stats
+    kwargs = {"finetuned_from": model_args.model_name_or_path, "tasks": "speech recognition"}
+    if data_args.dataset_name is not None:
+        kwargs["dataset_tags"] = data_args.dataset_name
+        if data_args.dataset_config_name is not None:
+            kwargs["dataset_args"] = data_args.dataset_config_name
+            kwargs["dataset"] = f"{data_args.dataset_name} {data_args.dataset_config_name}"
+        else:
+            kwargs["dataset"] = data_args.dataset_name
+    if training_args.push_to_hub:
+        trainer.push_to_hub(**kwargs)
+    else:
+        trainer.create_model_card(**kwargs)
+    return results
+if __name__ == "__main__":
+    main()

runs/Feb23_15-17-13_sanchit--v100/1645629478.673521/events.out.tfevents.1645629478.sanchit--v100.119082.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6d43aee7e9a127cafd31527c45179e4f9497ee022771a3cc9ddb09873bf3199
+size 4964

runs/Feb23_15-17-13_sanchit--v100/events.out.tfevents.1645629478.sanchit--v100.119082.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac91a55f39ef812d56b3c694c081f889131f0205a87df812220b2c07830493b6
+size 9170

runs/Feb23_15-18-28_sanchit--v100/1645629548.7865512/events.out.tfevents.1645629548.sanchit--v100.119273.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2720296d85500c3d65275e1cbcfdb893776c2ecaab2018cc103475b0049e6f7a
+size 4964

runs/Feb23_15-18-28_sanchit--v100/events.out.tfevents.1645629548.sanchit--v100.119273.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdaf4bc30e421b11019faa23f2fab3a3376148609382f426208013ab43ee132f
+size 9170

runs/Feb23_15-20-29_sanchit--v100/1645629669.5136263/events.out.tfevents.1645629669.sanchit--v100.119533.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e899c4bb1eb62647b7e4323f15156841ac52b3d614ccd05352b4442c8dd87df0
+size 4964

runs/Feb23_15-20-29_sanchit--v100/events.out.tfevents.1645629669.sanchit--v100.119533.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:108060fec874eae502062a68dd8c9cd69a45ba63672288a672c047230bf8ff5b
+size 9170

runs/Feb23_15-21-38_sanchit--v100/1645629738.8586485/events.out.tfevents.1645629738.sanchit--v100.119714.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c4ff060c7a55e5a3d7164905903042238d66d9437c9dff9ceb4563c0a91550a
+size 4964

runs/Feb23_15-21-38_sanchit--v100/events.out.tfevents.1645629738.sanchit--v100.119714.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:600bccdba6ed9a443d69598d28e8352fdc7029fb60041b75e57706dae53497e9
+size 9171

runs/Feb23_15-22-45_sanchit--v100/1645629807.9885855/events.out.tfevents.1645629807.sanchit--v100.119898.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73c4324949e30b58527fad8d9979c53c580bc5e8a24a7cf0818376ebbd39bcb4
+size 4964

runs/Feb23_15-22-45_sanchit--v100/events.out.tfevents.1645629807.sanchit--v100.119898.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff5cd32921e6778f45e24c9cb990e00c6f2ab2c0f8325b549b223f3d0aa22b2b
+size 9171

runs/Feb23_15-24-03_sanchit--v100/1645629883.5906208/events.out.tfevents.1645629883.sanchit--v100.120087.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3829afbf6756630f6602ed1ff25d6796e506b8c023ab7462847986c30987dcb
+size 4964

runs/Feb23_15-24-03_sanchit--v100/events.out.tfevents.1645629883.sanchit--v100.120087.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0cb07ff409753dfdf72b266e96b6e8b8bf57fc2ec2d062df497f9bceacdc78c
+size 9170

runs/Feb23_15-28-39_sanchit--v100/1645630160.6231816/events.out.tfevents.1645630160.sanchit--v100.120564.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96b6fcf29a0b81c24646e4dc6148d0afb37d09b8dae2573433f2a7631fe53f78
+size 4964

runs/Feb23_15-28-39_sanchit--v100/events.out.tfevents.1645630160.sanchit--v100.120564.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ee9529bd2dbb6c2d972e6879550e91a909b8fc3f0422559007472e7f55ea2f4
+size 9171

runs/Feb23_15-31-07_sanchit--v100/1645630308.0543547/events.out.tfevents.1645630308.sanchit--v100.120839.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ab4c3ea9c6c2c5a75b6daca24ecbb0e6f8f6e048c7ac91610319414ed519f36
+size 4964

runs/Feb23_15-31-07_sanchit--v100/events.out.tfevents.1645630308.sanchit--v100.120839.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12c2c57e1dc0ac95e0a8122339438cc16264e992f84ce3d4e17dedea3367fe7b
+size 9172

runs/Feb23_15-32-51_sanchit--v100/1645630413.4061124/events.out.tfevents.1645630413.sanchit--v100.121092.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53d64cfc49593e8879c6eae775a2d97c83e686f72f214f776cdd17cc3626c46f
+size 4964

runs/Feb23_15-32-51_sanchit--v100/events.out.tfevents.1645630413.sanchit--v100.121092.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a27437a339911cdd0627b19f5a0db87c840aadc25ed32900d58d6f88174fd853
+size 11325

runs/Feb23_15-38-52_sanchit--v100/1645630773.5256608/events.out.tfevents.1645630773.sanchit--v100.121718.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c48996fd159fc3f9cceeac9385b7b0a11986f8b07079934f8b37b8c03655289
+size 4964

runs/Feb23_15-38-52_sanchit--v100/events.out.tfevents.1645630773.sanchit--v100.121718.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d74c4a7089475d8373c282caffcd4bbe70eba1205d86a23faeb66d3828cbbf43
+size 9172

runs/Feb23_15-46-20_sanchit--v100/1645631221.2384057/events.out.tfevents.1645631221.sanchit--v100.122633.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:680fff33e275086a0cde022dc28d119f902ccf8693354433cddb69894acc7be7
+size 4964

runs/Feb23_15-46-20_sanchit--v100/events.out.tfevents.1645631221.sanchit--v100.122633.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c26ebda7902e590c50a8b488db24b1f321ffe71d81b904415090a579ea326391
+size 9323

runs/Feb23_15-47-56_sanchit--v100/1645631316.8539507/events.out.tfevents.1645631316.sanchit--v100.122880.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85c425a554fefda42fb77fb8ec264979b083e19d54c86141d5a589b4365c7af0
+size 4964

runs/Feb23_15-47-56_sanchit--v100/events.out.tfevents.1645631316.sanchit--v100.122880.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af7fa789dce176b7e9d56d196b246484541bcdcd6660668e66974ff44723a5f5
+size 9170

runs/Feb23_15-49-04_sanchit--v100/1645631387.0714893/events.out.tfevents.1645631387.sanchit--v100.123095.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02464c1c4305f8dfed87383ef996fa8dae731daf6ef936c2d77768e37d2d15a3
+size 4964

runs/Feb23_15-49-04_sanchit--v100/events.out.tfevents.1645631387.sanchit--v100.123095.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:537961314f702e0ddc1ca5437e166567dc79fa2c3fa6d9c4e8b7d2889057eb1a
+size 9169

runs/Feb23_15-57-27_sanchit--v100/1645631887.9999144/events.out.tfevents.1645631888.sanchit--v100.124050.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3331a52e8aa6084d33a0d4fb564340dafbff26a0bae8f97c09a490aea7a5813c
+size 4964

runs/Feb23_15-57-27_sanchit--v100/events.out.tfevents.1645631887.sanchit--v100.124050.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07383aa63fafa06e0b839fe6c239c780e47636bd9635e3fe0d76f5461a060462
+size 30455

runs/Feb23_16-07-05_sanchit--v100/1645632478.8360717/events.out.tfevents.1645632478.sanchit--v100.125003.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:092ecfad7a174e7fd1c783e2414f6bfe425dbf178957abda0b947436438dbae4
+size 4964

runs/Feb23_16-07-05_sanchit--v100/events.out.tfevents.1645632478.sanchit--v100.125003.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:192323750e8568c8e9556a24ca9dbca18417a58fb27d03dc52a150e433a3f6e7
+size 18099

runs/Feb23_16-12-14_sanchit--v100/1645632776.264174/events.out.tfevents.1645632776.sanchit--v100.125542.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:190eb06d178bb7ecee5436e97b31f8a4513ca8605a7419107676159f51ee791d
+size 4964

runs/Feb23_16-12-14_sanchit--v100/events.out.tfevents.1645632776.sanchit--v100.125542.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cbb281572cc9e56e9ae1cfe991fd6032a73ca3f4ea19dd908a85e479a132aea
+size 87604

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": "<\|endoftext\|>"}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"unk_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "./", "tokenizer_class": "GPT2Tokenizer"}