Spaces:

fargerm
/

TextAudioTransAudio

Sleeping

App Files Files Community

fargerm commited on Aug 24

Commit

5abc527

•

1 Parent(s): f199d8b

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -16

app.py CHANGED Viewed

@@ -1,22 +1,69 @@
 import streamlit as st
-import whisper
-# Function to transcribe uploaded audio file
-def transcribe_audio(uploaded_file):
-    model = whisper.load_model("base")
-    transcription = model.transcribe(uploaded_file)
-    return transcription['text']
-# Streamlit App Interface
-st.title("Speech-to-Text Transcription")
-st.write("Upload an audio file to get the transcription.")
-# Upload audio file
-uploaded_file = st.file_uploader("Upload an audio file", type=["wav", "mp3", "ogg"])
-if uploaded_file is not None:
-    st.write("Transcribing audio...")
-    transcription = transcribe_audio(uploaded_file)
-    st.write("Transcription:")
-    st.write(transcription)

 import streamlit as st
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+import soundfile as sf
+# Load translation model (you can adjust the model name based on your needs)
+translator_model_name = "Helsinki-NLP/opus-mt-en-{target_lang}"
+translator = pipeline("translation", model=translator_model_name)
+# Load TTS model
+tts_model_name = "microsoft/speecht5_tts"
+tts_tokenizer = AutoTokenizer.from_pretrained(tts_model_name)
+tts_model = AutoModelForSeq2SeqLM.from_pretrained(tts_model_name)
+vocoder = torch.hub.load('snakers4/silero-vad', 'silero_vad', source='github')
+# Function to translate text
+def translate_text(text, target_lang):
+    translation_pipeline = pipeline("translation_en_to_" + target_lang, model=translator_model_name.format(target_lang=target_lang))
+    translated = translation_pipeline(text)[0]['translation_text']
+    return translated
+# Function to generate speech
+def text_to_speech(text, target_lang):
+    inputs = tts_tokenizer(text, return_tensors="pt")
+    speech = tts_model.generate(**inputs)
+    speech_audio = vocoder(speech)
+    return speech_audio
+# Function to save audio to file
+def save_audio(speech_audio, file_name):
+    sf.write(file_name, speech_audio.numpy(), 16000)
+    return file_name
+# Streamlit UI layout
+st.title("TextLangAudioGenerator")
+# Text input
+text_input = st.text_area("Enter your text in English:")
+# Language selection dropdown
+languages = {
+    "French": "fr",
+    "Chinese": "zh",
+    "Italian": "it",
+    "Urdu": "ur",
+    "Hindi": "hi",
+    "Punjabi": "pa",
+    "Pashto": "ps"
+}
+target_lang = st.selectbox("Select target language:", list(languages.keys()))
+if st.button("Translate and Generate Audio"):
+    if text_input:
+        # Translate text
+        translated_text = translate_text(text_input, languages[target_lang])
+        st.write(f"Translated Text ({target_lang}): {translated_text}")
+        # Generate speech from translated text
+        speech_audio = text_to_speech(translated_text, target_lang)
+        # Save and play audio
+        audio_file = save_audio(speech_audio, 'output.wav')
+        st.audio(audio_file)
+        # Clear the input for new text
+        text_input = ""
+# Footer
+st.write("Powered by Hugging Face Transformers and SpeechT5 TTS")