Spaces:

Finnish-NLP
/

Finnish-Automatic-Speech-Recognition

Sleeping

RasmusToivanen commited on May 9, 2022

Commit

3dd368d

•

1 Parent(s): 0a1a14e

update ui

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,7 +17,8 @@ from fastapi import FastAPI, HTTPException, File
 from transformers import pipeline
-pipe = pipeline(model="Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2",chunk_length_s=20, stride_length_s=(4, 2))
@@ -28,26 +29,32 @@ model = AutoModelForSeq2SeqLM.from_pretrained('Finnish-NLP/case_correction_model
 # define speech-to-text function
-def asr_transcript(audio):
     text = ""
     if audio:
-        text = pipe(audio.name)
         input_ids = tokenizer(text['text'], return_tensors="pt").input_ids.to(device)
         outputs = model.generate(input_ids, max_length=128)
         case_corrected_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        return {"text_asr": text['text'], "text_case_corrected": case_corrected_text}
     else:
         return  "File not valid"
 gradio_ui = gr.Interface(
     fn=asr_transcript,
-    title="Speech-to-Text with HuggingFace+Wav2Vec2",
     description="Upload an audio clip, and let AI do the hard work of transcribing",
-    inputs=gr.inputs.Audio(label="Upload Audio File", type="file"),
-    outputs=gr.outputs.Textbox(label="Auto-Transcript"),
 )
-gradio_ui.launch()

 from transformers import pipeline
+pipe_300m = pipeline(model="Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm",chunk_length_s=20, stride_length_s=(3, 3))
+pipe_1b = pipeline(model="Finnish-NLP/wav2vec2-xlsr-1b-finnish-lm-v2",chunk_length_s=20, stride_length_s=(3, 3))
 # define speech-to-text function
+def asr_transcript(audio, model_params):
     text = ""
     if audio:
+        if model_params == "300 million":
+            text = pipe_300m(audio.name)
+        elif model_params == "1 billion":
+            text = pipe_1b(audio.name)
         input_ids = tokenizer(text['text'], return_tensors="pt").input_ids.to(device)
         outputs = model.generate(input_ids, max_length=128)
         case_corrected_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return text['text'], case_corrected_text
     else:
         return  "File not valid"
 gradio_ui = gr.Interface(
     fn=asr_transcript,
+    title="Finnish Automatic Speech-Recognition",
     description="Upload an audio clip, and let AI do the hard work of transcribing",
+    inputs=[gr.inputs.Audio(label="Upload Audio File", type="file"), gr.inputs.Dropdown(choices=["300 million", "1 billion"], type="value", default="1 billion", label="Select speech recognition model parameter amount", optional=False)],
+    outputs=[gr.outputs.Textbox(label="Recognized speech"),gr.outputs.Textbox(label="Recognized speech with case correction and punctuation")]
 )
+gradio_ui.launch()
+os.environ.get('hf_token')