Ilyes
/

wav2vec2-large-xlsr-53-french

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

Update README.md

#1

by Jeronymous - opened Jul 28, 2022

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +3 -5

README.md CHANGED Viewed

@@ -39,15 +39,13 @@ import re
 model_name = "Ilyes/wav2vec2-large-xlsr-53-french"
-model = Wav2Vec2ForCTC.from_pretrained(model_name).to('cuda')
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 ds = load_dataset("common_voice", "fr", split="test", cache_dir="./data/fr")
 chars_to_ignore_regex = '[\,\?\.\!\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\!\ǃ\?\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\.\,\;\:\*\—\–\─\―\_\/\:\ː\;\,\=\«\»\→]'
 def map_to_array(batch):
     speech, _ = torchaudio.load(batch["path"])
@@ -55,10 +53,10 @@ def map_to_array(batch):
     batch["sampling_rate"] = resampler.new_freq
     batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
     return batch
 ds = ds.map(map_to_array)
-resampler = torchaudio.transforms.Resample(48_000, 16_000)
 def map_to_pred(batch):
     features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
     input_values = features.input_values.to(device)

 model_name = "Ilyes/wav2vec2-large-xlsr-53-french"
+device = "cpu" # "cuda"
+model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(model_name)
 ds = load_dataset("common_voice", "fr", split="test", cache_dir="./data/fr")
 chars_to_ignore_regex = '[\,\?\.\!\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\!\ǃ\?\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\.\,\;\:\*\—\–\─\―\_\/\:\ː\;\,\=\«\»\→]'
 def map_to_array(batch):
     speech, _ = torchaudio.load(batch["path"])
     batch["sampling_rate"] = resampler.new_freq
     batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
     return batch
+resampler = torchaudio.transforms.Resample(48_000, 16_000)
 ds = ds.map(map_to_array)
 def map_to_pred(batch):
     features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
     input_values = features.input_values.to(device)