Spaces:

Neprox
/

STT-Swedish

Runtime error

App Files Files Community

Neprox commited on Dec 4, 2022

Commit

40da39c

•

1 Parent(s): 17123b4

Add slider

Browse files

Files changed (1) hide show

app.py +10 -8

app.py CHANGED Viewed

@@ -6,14 +6,13 @@ from datasets import Dataset, Audio
 from moviepy.editor import AudioFileClip
 pipe = pipeline(model="Neprox/model")
-MAX_SEGMENTS = 10 # 5 minutes
 def download_from_youtube(url):
     streams = YouTube(url).streams.filter(only_audio=True, file_extension='mp4')
     fpath = streams.first().download()
     return fpath
-def divide_into_30s_segments(audio_fpath):
     if not os.path.exists("segmented_audios"):
         os.makedirs("segmented_audios")
@@ -21,14 +20,16 @@ def divide_into_30s_segments(audio_fpath):
     n_full_segments = int(sound.duration / 30)
     len_last_segment = sound.duration % 30
-    if n_full_segments > MAX_SEGMENTS:
-        n_full_segments = MAX_SEGMENTS
         len_last_segment = 0
     segment_paths = []
     segment_start_times = []
-    for i in range(n_full_segments + 1):
         start = i * 30
         # Skip last segment if it is smaller than two seconds
@@ -49,10 +50,10 @@ def divide_into_30s_segments(audio_fpath):
     return segment_paths, segment_start_times
-def transcribe(audio, url):
     if url:
         fpath = download_from_youtube(url)
-        segment_paths, segment_start_times = divide_into_30s_segments(fpath)
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio())
         print(audio_dataset)
@@ -70,7 +71,8 @@ iface = gr.Interface(
     fn=transcribe,
     inputs=[
         gr.Audio(source="microphone", type="filepath"),
-        gr.Text(max_lines=1, placeholder="Enter YouTube Link with Swedish speech to be transcribed")
     ],
     outputs="text",
     title="Whisper Small Swedish",

 from moviepy.editor import AudioFileClip
 pipe = pipeline(model="Neprox/model")
 def download_from_youtube(url):
     streams = YouTube(url).streams.filter(only_audio=True, file_extension='mp4')
     fpath = streams.first().download()
     return fpath
+def divide_into_30s_segments(audio_fpath, seconds_max):
     if not os.path.exists("segmented_audios"):
         os.makedirs("segmented_audios")
     n_full_segments = int(sound.duration / 30)
     len_last_segment = sound.duration % 30
+    max_segments = int(seconds_max / 30)
+    if n_full_segments > max_segments:
+        n_full_segments = max_segments
         len_last_segment = 0
     segment_paths = []
     segment_start_times = []
+    segments_available = n_full_segments + 1
+    for i in range(min(segments_available, max_segments)):
         start = i * 30
         # Skip last segment if it is smaller than two seconds
     return segment_paths, segment_start_times
+def transcribe(audio, url, seconds_max):
     if url:
         fpath = download_from_youtube(url)
+        segment_paths, segment_start_times = divide_into_30s_segments(fpath, seconds_max)
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio())
         print(audio_dataset)
     fn=transcribe,
     inputs=[
         gr.Audio(source="microphone", type="filepath"),
+        gr.Text(max_lines=1, placeholder="Enter YouTube Link with Swedish speech to be transcribed", label="YouTube URL")
+        gr.Slider(minimum=30, maximum=300, value=30, step=30, label="Number of seconds to transcribe")
     ],
     outputs="text",
     title="Whisper Small Swedish",