Spaces:

Hunzla
/

whisperaudio

Runtime error

App Files Files Community

Hunzla commited on Aug 10, 2023

Commit

7c7805e

•

1 Parent(s): c5fe8de

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -50

app.py CHANGED Viewed

@@ -1,58 +1,50 @@
 from transformers import pipeline
 import gradio as gr
-from pyannote.core import Annotation
-from pydub import AudioSegment
-import torchaudio
-from pyannote.audio import Pipeline
-diarization_pipe = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1",
-                                    use_auth_token="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")  # change to "your-username/the-name-you-picked"
-# Load the speech-to-text model (Whisper)
-asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny")
-def transcribe_with_diarization(audio_path):
-    # Get speaker segments using the diarization model
-  diarization_result = diarization_pipe(audio_path)
-    # Extract speaker segments and transcribe them using Whisper ASR
-  transcripts = []
-  for track, segment,speaker in diarization_result.itertracks(yield_label=True):
-        print(segment)
-        print(speaker)
-        start_time = track.start
-        end_time = track.end
-        print(start_time)
-        print(end_time)
-        label = segment  # Extract the label manually
-        waveform, sample_rate = torchaudio.load(audio_path, normalize=True)
-        start_sample = int(start_time * sample_rate)
-        end_sample = int(end_time * sample_rate)
-        print(waveform)
-        interval_audio = waveform[:,start_sample:end_sample]
-            # Export the interval audio as a temporary WAV file
-        torchaudio.save("interval_audio.wav", interval_audio,sample_rate)
-        transcript = asr_pipe("interval_audio.wav")
-        print(transcript)
-        transcripts.append(transcript)
-    # Combine the transcriptions from all speakers
-  text = " ".join(transcripts)
-  return text
 iface = gr.Interface(
-    fn=transcribe_with_diarization,
-    inputs=[
-        gr.File(label="Audio File"),
-        gr.Audio(source="microphone", type="filepath", filetype="mp3")
-    ],
     outputs="text",
-    title="Whisper Large Hindi with Speaker Diarization",
-    description="Real-time demo for Hindi speech recognition using a fine-tuned Whisper large model with speaker diarization.",
 )
-iface.launch()

 from transformers import pipeline
+asr_pipe = pipeline("automatic-speech-recognition", model="ihanif/whisper-medium-urdu")
+from difflib import SequenceMatcher
+# List of commands
+commands = [
+    "کمپیوٹر، کھیل کھیلو",
+    "میوزک چلاؤ",
+    "روشنی کم کریں"
+]
+replies = [
+    "https://medicobilling.info/urdu.wav",
+    "download.wav",
+    "https://medicobilling.info/urdu.wav"
+]
+# Function to find the most similar command
+def find_most_similar_command(statement, command_list):
+    best_match = None
+    highest_similarity = 0
+    i=0
+    for command in command_list:
+        similarity = SequenceMatcher(None, statement, command).ratio()
+        if similarity > highest_similarity:
+            highest_similarity = similarity
+            best_match = command
+            reply=replies[i]
+            i+=1
+        else:
+            best_match="unknown"
+            reply="unknown.wav"
+    return best_match,reply
+def transcribe_the_command(audio_path):
+      transcript = asr_pipe(audio_path)["text"]
+      most_similar_command,reply = find_most_similar_command(transcript, commands)
+      print(f"Given Statement: {transcript}")
+      print(f"Most Similar Command: {most_similar_command}\n")
+      return reply
+# get_text_from_voice("urdu.wav")
 import gradio as gr
 iface = gr.Interface(
+    fn=transcribe_the_command,
+    inputs=gr.Audio(source="microphone"),
     outputs="text",
+    title="Whisper Small Hindi",
+    description="Realtime demo for Hindi speech recognition using a fine-tuned Whisper small model.",
 )
+iface.launch(share="true")