Spaces:

marquesafonso
/

multilang-asr-transcriber

Running

App Files Files Community

marquesafonso commited on Aug 23

Commit

ffa3aaf

•

1 Parent(s): 655abb7

add mvp api with desired functionalities

Browse files

Files changed (5) hide show

Pipfile +15 -0
Pipfile.lock +0 -0
app.py +21 -0
requirements.txt +0 -0
src/transcriber.py +59 -0

Pipfile ADDED Viewed

	@@ -0,0 +1,15 @@

+[[source]]
+url = "https://pypi.org/simple"
+verify_ssl = true
+name = "pypi"
+[packages]
+faster-whisper = "*"
+gradio = "*"
+moviepy = "*"
+[dev-packages]
+[requires]
+python_version = "3.11"
+python_full_version = "3.11.9"

Pipfile.lock ADDED Viewed

The diff for this file is too large to render. See raw diff

app.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import gradio as gr
+from src.transcriber import transcriber
+def main():
+    with gr.Blocks(analytics_enabled=False, title='multilang-asr-transcriber') as demo:
+        gr.Markdown('# multilang-asr-transcriber')
+        gr.Markdown('### A multilingual automatic speech transcription tool using [faster-whisper](https://github.com/SYSTRAN/faster-whisper). Supports translation to english and user setting of max words per line.',)
+        video_file = gr.File(file_types=["video"],type="filepath")
+        max_words_per_line = gr.Number(value=6, label="Max words per line")
+        task = gr.Dropdown(choices=["transcribe", "translate"], value="transcribe", label="Select Task")
+        text_output = gr.Textbox(label="Text transcription")
+        srt_file = gr.File(file_count="single", file_types=[".srt"], label="SRT file")
+        gr.Interface(transcriber,
+                    inputs=[video_file, max_words_per_line, task],
+                    outputs=[text_output,srt_file],
+                    allow_flagging="never",
+                    analytics_enabled=False)
+    demo.launch()
+if __name__ == '__main__':
+    main()

requirements.txt ADDED Viewed

Binary file (6.88 kB). View file

src/transcriber.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import os
+import gradio as gr
+from faster_whisper import WhisperModel
+from moviepy.editor import VideoFileClip
+def convert_video_to_audio(video_input):
+    video_clip = VideoFileClip(video_input)
+    audio_clip = video_clip.audio
+    audio_clip_filepath = os.path.normpath(f"{video_input.split('.')[0]}.m4a")
+    audio_clip.write_audiofile(audio_clip_filepath, codec='aac')
+    audio_clip.close()
+    video_clip.close()
+    return audio_clip_filepath
+def convert_seconds_to_time(seconds):
+    seconds = float(seconds)
+    hours, remainder = divmod(seconds, 3600)
+    minutes, remainder = divmod(remainder, 60)
+    whole_seconds = int(remainder)
+    milliseconds = int((remainder - whole_seconds) * 1000)
+    return f"{int(hours):02}:{int(minutes):02}:{whole_seconds:02},{milliseconds:03}"
+def write_srt(segments, max_words_per_line, srt_path):
+    with open(srt_path, "w", encoding='utf-8') as file:
+        result = ''
+        line_counter = 1
+        for _, segment in enumerate(segments):
+            words_in_line = []
+            for w, word in enumerate(segment.words):
+                words_in_line.append(word)
+                # Write the line if max words limit reached or it's the last word in the segment
+                if len(words_in_line) == max_words_per_line or w == len(segment.words) - 1:
+                    if words_in_line:  # Check to avoid writing a line if there are no words
+                        start_time = convert_seconds_to_time(words_in_line[0].start)
+                        end_time = convert_seconds_to_time(words_in_line[-1].end)
+                        line_text = ' '.join([w.word.strip() for w in words_in_line])
+                        result += f"{line_counter}\n{start_time} --> {end_time}\n{line_text}\n\n"
+                        # Reset for the next line and increment line counter
+                        line_counter += 1
+                    words_in_line = []  # Reset words list for the next line
+        file.write(result)
+        return result, srt_path
+def transcriber(video_input:gr.File,
+                max_words_per_line:int,
+                task:str):
+    srt_filepath = os.path.normpath(f"{video_input.split('.')[0]}.srt")
+    audio_input = convert_video_to_audio(video_input)
+    model_size = "large-v3"
+    model = WhisperModel(model_size, device="cpu", compute_type="int8")
+    segments, _ = model.transcribe(
+        audio_input,
+        beam_size=5,
+        task=task,
+        vad_filter=True,
+        vad_parameters=dict(min_silence_duration_ms=500),
+        word_timestamps=True
+    )
+    return write_srt(segments=segments, max_words_per_line=max_words_per_line, srt_path=srt_filepath)