Spaces:

litagin
/

anime-whisper-demo

Running on Zero

App Files Files Community

litagin commited on Oct 13, 2024

Commit

ab55ccc

1 Parent(s): d01f68f

update

Browse files

Files changed (3) hide show

app.py +15 -5
requirements.txt +1 -0
test.wav +0 -0

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import time
 import gradio as gr
 import spaces
 import torch
 from pydub import AudioSegment
 from transformers import pipeline
@@ -30,7 +31,7 @@ model_dict = {
     ),
 }
-print("Initializing pipelines...")
 pipe_dict = {
     k: pipeline(
         "automatic-speech-recognition",
@@ -39,11 +40,12 @@ pipe_dict = {
     )
     for k, v in model_dict.items()
 }
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
-    print(f"Transcribing {audio} with {model}")
     # Get duration of audio
     duration = AudioSegment.from_file(audio).duration_seconds
     if duration > 15:
@@ -51,6 +53,8 @@ def transcribe_common(audio: str, model: str) -> tuple[str, float]:
     start_time = time.time()
     result = pipe_dict[model](audio, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
     return result, end_time - start_time
@@ -78,13 +82,17 @@ def transcribe_galgame_whisper(audio) -> tuple[str, float]:
     return transcribe_common(audio, "galgame-whisper-wip")
 initial_md = """
 # Galgame-Whisper (WIP) Demo
 - 日本語のみ対応
-- 他の書き起こしとついでに比較できるようにいろいろ入れた
 - 現在0.1エポックくらい
-- 速度はCPUです
 - 音声は15秒まで
 pipeのハイパラ:
@@ -135,6 +143,9 @@ with gr.Blocks() as app:
             time_kotoba_v2 = gr.Textbox(label="Time taken")
             output_kotoba_v2 = gr.Textbox(label="Result")
     button_v2.click(transcribe_large_v2, inputs=audio, outputs=[output_v2, time_v2])
     button_v3.click(transcribe_large_v3, inputs=audio, outputs=[output_v3, time_v3])
     button_v3_turbo.click(
@@ -153,5 +164,4 @@ with gr.Blocks() as app:
         inputs=audio,
         outputs=[output_galgame, time_galgame],
     )
 app.launch(inbrowser=True)

 import gradio as gr
 import spaces
 import torch
+from loguru import logger
 from pydub import AudioSegment
 from transformers import pipeline
     ),
 }
+logger.info("Initializing pipelines...")
 pipe_dict = {
     k: pipeline(
         "automatic-speech-recognition",
     )
     for k, v in model_dict.items()
 }
+logger.success("Pipelines initialized!")
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
+    logger.info(f"Transcribing {audio} with {model}")
     # Get duration of audio
     duration = AudioSegment.from_file(audio).duration_seconds
     if duration > 15:
     start_time = time.time()
     result = pipe_dict[model](audio, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
+    logger.success(f"Transcribed {audio} with {model} in {end_time - start_time:.2f}s")
+    logger.success(f"Result:\n{result}")
     return result, end_time - start_time
     return transcribe_common(audio, "galgame-whisper-wip")
+logger.info("Warm-up...")
+transcribe_large_v3_turbo("test.wav")
+logger.success("Warm-up done!")
 initial_md = """
 # Galgame-Whisper (WIP) Demo
+- https://huggingface.co/litagin/galgame-whisper-wip
 - 日本語のみ対応
+- 比較できるように他モデルもついでに試せる
 - 現在0.1エポックくらい
 - 音声は15秒まで
 pipeのハイパラ:
             time_kotoba_v2 = gr.Textbox(label="Time taken")
             output_kotoba_v2 = gr.Textbox(label="Result")
+    with gr.Row():
+        refresh_button = gr.Button("Refresh Status")  # Create a refresh button
     button_v2.click(transcribe_large_v2, inputs=audio, outputs=[output_v2, time_v2])
     button_v3.click(transcribe_large_v3, inputs=audio, outputs=[output_v3, time_v3])
     button_v3_turbo.click(
         inputs=audio,
         outputs=[output_galgame, time_galgame],
     )
 app.launch(inbrowser=True)

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 gradio
 numpy<2
 spaces
 torch

 gradio
+loguru
 numpy<2
 spaces
 torch

test.wav ADDED Viewed

Binary file (414 kB). View file