Spaces:

MikeTangoEcho
/

asrnersbx

Paused

MikeTangoEcho commited on Nov 10

Commit

c092255

•

1 Parent(s): 75b7975

fix: app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -57,7 +57,16 @@ def transcribe(audio: str | Path | bytes | tuple[int, np.ndarray] | None):
     # https://huggingface.co/docs/transformers/main_classes/pipelines#transformers.AutomaticSpeechRecognitionPipeline.__call__
     # Whisper input format for tuple differ from output provided by gradio audio component
     if asr_model.startswith("openai/whisper"):
-        inputs = {"sampling_rate": audio[0], "raw": audio[1]} if type(audio) is tuple else audio
         transcript = asr(inputs)
         text = transcript['text']

     # https://huggingface.co/docs/transformers/main_classes/pipelines#transformers.AutomaticSpeechRecognitionPipeline.__call__
     # Whisper input format for tuple differ from output provided by gradio audio component
     if asr_model.startswith("openai/whisper"):
+        sampling_rate, raw = audio
+        # Convert to mono if stereo
+        if raw.ndim > 1:
+            raw = raw.mean(axis=1)
+        raw = raw.astype(np.float32)
+        raw /= np.max(np.abs(raw))
+        inputs = {"sampling_rate": sampling_rate, "raw": raw} if type(audio) is tuple else audio
         transcript = asr(inputs)
         text = transcript['text']