Spaces:

Abbas0786
/

speech2text

Sleeping

App Files Files Community

Abbas0786 commited on Aug 31, 2024

Commit

ab0b8b5

verified ·

1 Parent(s): f156c67

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -26

app.py CHANGED Viewed

@@ -1,46 +1,49 @@
 import streamlit as st
 from transformers import pipeline
 import numpy as np
-from pydub import AudioSegment
 import io
-# Load the ASR pipeline with Whisper model
-pipe = pipeline("automatic-speech-recognition", model="openai/whisper-large-v3")
-def audio_to_numpy(audio_file):
-    # Load the audio file into an AudioSegment object
-    audio = AudioSegment.from_file(io.BytesIO(audio_file.read()))
-    # Convert audio to mono and set sample rate to 16000
-    audio = audio.set_channels(1).set_frame_rate(16000)
-    # Convert to numpy array
-    samples = np.array(audio.get_array_of_samples())
-    # Normalize the data
-    samples = samples.astype(np.float32) / np.iinfo(audio.sample_width * 8).max
-    return samples
-def transcribe_audio(audio_file):
-    # Convert audio bytes to numpy array
-    audio_numpy = audio_to_numpy(audio_file)
     # Transcribe audio
-    transcription = pipe(audio_numpy)
     return transcription['text']
 # Streamlit UI
-st.title("Speech-to-Text Transcription App")
-st.write("Upload an audio file to transcribe its content into text.")
-uploaded_file = st.file_uploader("Choose an audio file...", type=["wav", "mp3", "flac"])
 if uploaded_file is not None:
     try:
-        with st.spinner("Transcribing..."):
-            text = transcribe_audio(uploaded_file)
-            st.subheader("Transcription Result:")
-            st.write(text)
     except Exception as e:
         st.error(f"An error occurred: {e}")

 import streamlit as st
 from transformers import pipeline
+import librosa
+import soundfile as sf
 import numpy as np
 import io
+# Load the ASR pipeline with the specified model
+pipe = pipeline("automatic-speech-recognition", model="kingabzpro/wav2vec2-large-xls-r-300m-Urdu")
+def load_audio(audio_file):
+    """Load an audio file and convert to the correct format."""
+    audio_bytes = audio_file.read()
+    audio = io.BytesIO(audio_bytes)
+    # Use librosa to load the audio file
+    audio_np, sr = librosa.load(audio, sr=16000)
+    return audio_np, sr
+def transcribe_audio(audio_np):
+    """Transcribe the given audio numpy array using the model pipeline."""
+    # Convert the audio numpy array to a format acceptable by the pipeline
+    audio = sf.write(io.BytesIO(), audio_np, 16000, format='wav')
     # Transcribe audio
+    transcription = pipe(audio)
     return transcription['text']
 # Streamlit UI
+st.title("Urdu Speech-to-Text Transcription App")
+st.write("Upload an audio file to transcribe its content into Urdu text.")
+uploaded_file = st.file_uploader("Choose an audio file...", type=["wav", "mp3"])
 if uploaded_file is not None:
     try:
+        # Load and process the audio file
+        audio_np, sr = load_audio(uploaded_file)
+        # Transcribe the audio
+        text = transcribe_audio(audio_np)
+        # Display the transcription result
+        st.subheader("Transcription Result:")
+        st.write(text)
     except Exception as e:
         st.error(f"An error occurred: {e}")