Spaces:

Neprox
/

STT-Swedish

Runtime error

Neprox commited on Dec 4, 2022

Commit

a3c12f3

•

1 Parent(s): 51423ee

improve aesthetics

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,6 +54,9 @@ def divide_into_30s_segments(audio_fpath, seconds_max):
     return segment_paths, segment_start_times
 def transcribe(audio, url, seconds_max):
     if url:
@@ -61,13 +64,13 @@ def transcribe(audio, url, seconds_max):
         segment_paths, segment_start_times = divide_into_30s_segments(fpath, seconds_max)
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio(sampling_rate=16000))
-        print(audio_dataset)
-        print(audio_dataset[0])
         pred = pipe(audio_dataset["audio"])
         text = ""
         n_segments = len(segment_start_times)
         for i, (seconds, output) in enumerate(zip(segment_start_times, pred)):
-            text += f"[Segment {i}/{n_segments}, start time {get_timestamp(seconds)}]\n{output['text']}\n"
         return text
     else:
@@ -77,9 +80,9 @@ def transcribe(audio, url, seconds_max):
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
-        gr.Audio(source="microphone", type="filepath"),
-        gr.Text(max_lines=1, placeholder="Enter YouTube Link with Swedish speech to be transcribed", label="YouTube URL"),
-        gr.Slider(minimum=30, maximum=300, value=30, step=30, label="Number of seconds to transcribe")
     ],
     outputs="text",
     title="Whisper Small Swedish",

     return segment_paths, segment_start_times
+def get_translation(text):
+    # TODO: Make API call to Google Translate to get English translation
+    return "..."
 def transcribe(audio, url, seconds_max):
     if url:
         segment_paths, segment_start_times = divide_into_30s_segments(fpath, seconds_max)
         audio_dataset = Dataset.from_dict({"audio": segment_paths}).cast_column("audio", Audio(sampling_rate=16000))
         pred = pipe(audio_dataset["audio"])
         text = ""
         n_segments = len(segment_start_times)
         for i, (seconds, output) in enumerate(zip(segment_start_times, pred)):
+            text += f"[Segment {i+1}/{n_segments}, start time {get_timestamp(seconds)}]\n"
+            text += f"{output['text']}\n"
+            text += f"[Translation]\n{get_translation(output['text'])}\n\n"
         return text
     else:
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
+        gr.Audio(source="microphone", type="filepath", label="Transcribe from Microphone"),
+        gr.Text(max_lines=1, placeholder="Enter YouTube Link with Swedish speech to be transcribed", label="Transcribe from YouTube URL"),
+        gr.Slider(minimum=30, maximum=300, value=30, step=30, label="Number of seconds to transcribe from YouTube URL")
     ],
     outputs="text",
     title="Whisper Small Swedish",