Spaces:

anzorq
/

w2v-bert-2.0-kbd

Paused

App Files Files Community

anzorq commited on May 20, 2024

Commit

d1e3f48

verified ·

1 Parent(s): dbc9269

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -3

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ from transformers import AutoModelForCTC, Wav2Vec2BertProcessor
 from pytube import YouTube
 from transformers import pipeline
 import re
 pipe = pipeline(model="anzorq/w2v-bert-2.0-kbd-v2", device=0)
@@ -24,7 +25,16 @@ def replace_symbols_back(text):
     return reverse_pattern.sub(lambda match: reverse_replacements[match.group(0)], text)
 @spaces.GPU
-def transcribe_speech(stream, new_chunk):
     if new_chunk is None:  # Handle the NoneType error for microphone input
         return "No audio received.", ""
@@ -46,7 +56,7 @@ def transcribe_from_youtube(url, progress=gr.Progress()):
     audio_path = YouTube(url).streams.filter(only_audio=True)[0].download(filename="tmp.mp4")
     progress(0.5, "Transcribing audio...")
-    _, transcription = transcribe_speech(None, audio_path)
     return audio_path, transcription
@@ -73,7 +83,15 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         mic_audio = gr.Audio(sources='microphone', streaming=True)
         transcription_output = gr.Textbox(label="Transcription", lines=10)
-        mic_audio.stream(fn=transcribe_speech, inputs=[gr.State(), mic_audio], outputs=[gr.State(), transcription_output])
     with gr.Tab("YouTube URL"):
         gr.Markdown("## Transcribe speech from YouTube video")

 from pytube import YouTube
 from transformers import pipeline
 import re
+import numpy as np
 pipe = pipeline(model="anzorq/w2v-bert-2.0-kbd-v2", device=0)
     return reverse_pattern.sub(lambda match: reverse_replacements[match.group(0)], text)
 @spaces.GPU
+def transcribe_speech(audio):
+    if audio is None:  # Handle the NoneType error for microphone input
+        return "No audio received."
+    transcription = pipe(audio, chunk_length_s=10)['text']
+    return replace_symbols_back(transcription)
+@spaces.GPU
+def transcribe_streaming(stream, new_chunk):
     if new_chunk is None:  # Handle the NoneType error for microphone input
         return "No audio received.", ""
     audio_path = YouTube(url).streams.filter(only_audio=True)[0].download(filename="tmp.mp4")
     progress(0.5, "Transcribing audio...")
+    transcription = transcribe_speech(audio_path)
     return audio_path, transcription
         mic_audio = gr.Audio(sources='microphone', streaming=True)
         transcription_output = gr.Textbox(label="Transcription", lines=10)
+        mic_audio.stream(fn=transcribe_streaming, inputs=[gr.State(), mic_audio], outputs=[gr.State(), transcription_output])
+    with gr.Tab("File Upload"):
+        gr.Markdown("## Transcribe speech from uploaded file")
+        upload_audio = gr.Audio(sources="upload", type="filepath")
+        transcribe_button = gr.Button("Transcribe")
+        file_transcription_output = gr.Textbox(label="Transcription")
+        transcribe_button.click(fn=transcribe_speech, inputs=upload_audio, outputs=file_transcription_output)
     with gr.Tab("YouTube URL"):
         gr.Markdown("## Transcribe speech from YouTube video")