Spaces:

anzorq
/

w2v-bert-2.0-kbd

Paused

anzorq commited on May 21

Commit

b20428c

•

1 Parent(s): 1f1ae63

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,8 +32,11 @@ def replace_symbols_back(text):
 def preprocess_audio(audio_tensor, original_sample_rate, apply_normalization):
     audio_tensor = audio_tensor.to(dtype=torch.float32)
     audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)  # Convert to mono
     if apply_normalization:
-        audio_tensor = audio_tensor / torch.max(torch.abs(audio_tensor))  # Normalize
     audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=original_sample_rate, new_freq=16000)  # Resample
     return audio_tensor

 def preprocess_audio(audio_tensor, original_sample_rate, apply_normalization):
     audio_tensor = audio_tensor.to(dtype=torch.float32)
     audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)  # Convert to mono
     if apply_normalization:
+        audio_tensor = audio_tensor / torch.max(torch.abs(audio_tensor)) # Normalize
+    audio_tensor = torch.clamp(audio_tensor, min=-1, max=1)
     audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=original_sample_rate, new_freq=16000)  # Resample
     return audio_tensor