Spaces:

anzorq
/

w2v-bert-2.0-kbd

Paused

anzorq commited on May 21

Commit

194bfe5

•

1 Parent(s): b20428c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ def preprocess_audio(audio_tensor, original_sample_rate, apply_normalization):
     if apply_normalization:
         audio_tensor = audio_tensor / torch.max(torch.abs(audio_tensor)) # Normalize
-    audio_tensor = torch.clamp(audio_tensor, min=-1, max=1)
     audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=original_sample_rate, new_freq=16000)  # Resample
     return audio_tensor
@@ -82,10 +82,13 @@ def transcribe_from_youtube(url, apply_wiener_filter, apply_normalization, apply
         transcription, _ = transcribe_speech(audio)
     except Exception as e:
         return str(e), None
-    return transcription, (16000, audio.numpy())
 def populate_metadata(url):
     yt = YouTube(url)

     if apply_normalization:
         audio_tensor = audio_tensor / torch.max(torch.abs(audio_tensor)) # Normalize
+    # audio_tensor = torch.clamp(audio_tensor, min=-1, max=1)
     audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=original_sample_rate, new_freq=16000)  # Resample
     return audio_tensor
         transcription, _ = transcribe_speech(audio)
+        # Convert to 32-bit float for Gradio output
+        audio_output = audio.numpy().astype(np.float32)
     except Exception as e:
         return str(e), None
+    return transcription, (16000, audio_output)
 def populate_metadata(url):
     yt = YouTube(url)