Spaces:

Baghdad99
/

ha-en

Sleeping

Baghdad99 commited on Dec 6, 2023

Commit

5dd0786

1 Parent(s): 745b386

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,8 +12,8 @@ tts_tokenizer = AutoTokenizer.from_pretrained("Baghdad99/english_voice_tts")
 tts_model = AutoModelForTextToWaveform.from_pretrained("Baghdad99/english_voice_tts")
 # Define the translation and synthesis functions
-def translate(audio_signal):
-    inputs = asr_processor(audio_signal, return_tensors="pt", padding=True)
     logits = asr_model(inputs.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = asr_processor.decode(predicted_ids[0])
@@ -26,8 +26,8 @@ def synthesise(translated_text):
     audio = tts_model.generate(inputs['input_ids'])
     return audio
-def translate_speech(audio):
-    translated_text = translate(audio)
     synthesised_speech = synthesise(translated_text)
     synthesised_speech = (synthesised_speech.numpy() * max_range).astype(np.int16)
     return 16000, synthesised_speech

 tts_model = AutoModelForTextToWaveform.from_pretrained("Baghdad99/english_voice_tts")
 # Define the translation and synthesis functions
+def translate(audio_signal, sampling_rate):
+    inputs = asr_processor(audio_signal, return_tensors="pt", padding=True, sampling_rate=sampling_rate)
     logits = asr_model(inputs.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = asr_processor.decode(predicted_ids[0])
     audio = tts_model.generate(inputs['input_ids'])
     return audio
+def translate_speech(audio, sampling_rate):
+    translated_text = translate(audio, sampling_rate)
     synthesised_speech = synthesise(translated_text)
     synthesised_speech = (synthesised_speech.numpy() * max_range).astype(np.int16)
     return 16000, synthesised_speech