Upload 10 files

Browse files

add speech to text

Files changed (10) hide show

models/speech_to_text/main.py +63 -0
models/speech_to_text/requirements.txt +3 -0
models/speech_to_text/transcriber/__init__.py +1 -0
models/speech_to_text/transcriber/__pycache__/__init__.cpython-312.pyc +0 -0
models/speech_to_text/transcriber/__pycache__/audio.cpython-312.pyc +0 -0
models/speech_to_text/transcriber/__pycache__/model.cpython-312.pyc +0 -0
models/speech_to_text/transcriber/__pycache__/utils.cpython-312.pyc +0 -0
models/speech_to_text/transcriber/audio.py +35 -0
models/speech_to_text/transcriber/model.py +16 -0
models/speech_to_text/transcriber/utils.py +19 -0

models/speech_to_text/main.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import argparse
+import torch
+import os
+from transcriber.model import load_model_and_processor
+from transcriber.audio import preprocess_audio, transcribe_audio
+from transcriber.utils import get_audio_files_from_directory
+def transcribe_multiple_files(model, processor, audio_files, target_sr=16000):
+    """
+    Transcribes multiple audio files.
+    Parameters:
+        model: The Whisper model.
+        processor: The processor used for preparing the input features.
+        audio_files (list): List of paths to audio files.
+        target_sr (int): The target sampling rate for the audio.
+    Returns:
+        results (dict): Dictionary mapping file names to their transcriptions.
+    """
+    results = {}
+    for file_path in audio_files:
+        print(f"Processing file: {file_path}")
+        audio = preprocess_audio(file_path, target_sr=target_sr)
+        transcription = transcribe_audio(model, processor, audio, target_sr=target_sr)
+        results[file_path] = transcription
+        print(f"Transcription for {file_path}: {transcription}")
+    return results
+def main():
+    # Argument parser to accept directory or audio files as input
+    parser = argparse.ArgumentParser(description="Transcribe audio files using Whisper.")
+    parser.add_argument('input_path', type=str, help="Path to the audio file or directory containing audio files.")
+    args = parser.parse_args()
+    # Load model and processor once
+    model, processor = load_model_and_processor()
+    # Check if input is a directory or a single file
+    input_path = args.input_path
+    audio_files = []
+    if os.path.isdir(input_path):
+        # Get all audio files from the directory
+        audio_files = get_audio_files_from_directory(input_path)
+    elif os.path.isfile(input_path):
+        # Single file path provided
+        audio_files = [input_path]
+    else:
+        print(f"Invalid input path: {input_path}")
+        return
+    # Transcribe all audio files
+    transcriptions = transcribe_multiple_files(model, processor, audio_files)
+    # Optionally, you can store the transcriptions in a file or print them out
+    for file, transcription in transcriptions.items():
+        print(f"File: {file}, Transcription: {transcription}")
+if __name__ == "__main__":
+    main()

models/speech_to_text/requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+torch
+transformers
+librosa

models/speech_to_text/transcriber/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # transcriber/__init__.py

models/speech_to_text/transcriber/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (200 Bytes). View file

models/speech_to_text/transcriber/__pycache__/audio.cpython-312.pyc ADDED Viewed

Binary file (1.9 kB). View file

models/speech_to_text/transcriber/__pycache__/model.cpython-312.pyc ADDED Viewed

Binary file (937 Bytes). View file

models/speech_to_text/transcriber/__pycache__/utils.cpython-312.pyc ADDED Viewed

Binary file (1.32 kB). View file

models/speech_to_text/transcriber/audio.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import librosa
+import torch
+def preprocess_audio(file_path, target_sr=16000):
+    """
+    Loads and resamples audio from the specified file.
+    Parameters:
+        file_path (str): Path to the audio file.
+        target_sr (int): Target sampling rate. Defaults to 16000 Hz.
+    Returns:
+        resampled_audio (np.ndarray): Resampled audio data.
+    """
+    audio_input, sample_rate = librosa.load(file_path, sr=None)  # Keep original sample rate
+    resampled_audio = librosa.resample(audio_input, orig_sr=sample_rate, target_sr=target_sr)
+    return resampled_audio
+def transcribe_audio(model, processor, audio, target_sr=16000):
+    """
+    Transcribes the given audio using the Whisper model.
+    Parameters:
+        model: The Whisper model.
+        processor: The processor used for preparing the input features.
+        audio (np.ndarray): The resampled audio data.
+        target_sr (int): The target sampling rate for the audio.
+    Returns:
+        transcription (str): The transcribed text from the audio.
+    """
+    input_features = processor(audio, sampling_rate=target_sr, return_tensors="pt").input_features
+    with torch.no_grad():
+        predicted_ids = model.generate(input_features)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+    return transcription

models/speech_to_text/transcriber/model.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+def load_model_and_processor(model_name="openai/whisper-base"):
+    """
+    Loads the Whisper model and processor.
+    Parameters:
+        model_name (str): The model to load. Defaults to 'openai/whisper-base'.
+    Returns:
+        model (WhisperForConditionalGeneration): Loaded Whisper model.
+        processor (WhisperProcessor): Loaded processor for the model.
+    """
+    model = WhisperForConditionalGeneration.from_pretrained(model_name)
+    processor = WhisperProcessor.from_pretrained(model_name)
+    return model, processor

models/speech_to_text/transcriber/utils.py ADDED Viewed

	@@ -0,0 +1,19 @@

+import os
+def get_audio_files_from_directory(directory, extensions=[".wav", ".mp3"]):
+    """
+    Retrieves all audio files from a specified directory.
+    Parameters:
+        directory (str): The directory to search for audio files.
+        extensions (list): List of valid audio file extensions.
+    Returns:
+        audio_files (list): List of paths to audio files.
+    """
+    audio_files = []
+    for root, _, files in os.walk(directory):
+        for file in files:
+            if any(file.endswith(ext) for ext in extensions):
+                audio_files.append(os.path.join(root, file))
+    return audio_files