Spaces:

Neprox
/

STT-Swedish

Runtime error

Neprox commited on Dec 3, 2022

Commit

8f47d53

•

1 Parent(s): 3b7997e

debug

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from datasets import Dataset, Audio
 from moviepy.editor import AudioFileClip
 pipe = pipeline(model="Neprox/model")
 def download_from_youtube(url):
     streams = YouTube(url).streams.filter(only_audio=True, file_extension='mp4')
@@ -20,6 +21,10 @@ def divide_into_30s_segments(audio_fpath):
     n_full_segments = int(sound.duration / 30)
     len_last_segment = sound.duration % 30
     segment_paths = []
     segment_start_times = []
@@ -51,6 +56,7 @@ def transcribe(audio, url):
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio())
         print(audio_dataset)
         text = pipe(audio_dataset)
         print(type(text))
         print(text)

 from moviepy.editor import AudioFileClip
 pipe = pipeline(model="Neprox/model")
+MAX_SEGMENTS = 10 # 5 minutes
 def download_from_youtube(url):
     streams = YouTube(url).streams.filter(only_audio=True, file_extension='mp4')
     n_full_segments = int(sound.duration / 30)
     len_last_segment = sound.duration % 30
+    if n_full_segments > MAX_SEGMENTS:
+        n_full_segments = MAX_SEGMENTS
+        len_last_segment = 0
     segment_paths = []
     segment_start_times = []
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio())
         print(audio_dataset)
+        print(audio_dataset[0])
         text = pipe(audio_dataset)
         print(type(text))
         print(text)