Spaces:

rmayormartins
/

speech-accent-es-classifier

Running

App Files Files Community

rmayormartins commited on Aug 6, 2024

Commit

77c34b5

1 Parent(s): a3414e2

Subindo arquivos7

Browse files

Files changed (2) hide show

app.py +15 -12
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,12 +1,15 @@
 import gradio as gr
 import torch
 import numpy as np
-from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
-#
 model_name = "results"
 processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name, from_tf=False, from_flax=False, from_safetensors=True)
 def classify_accent(audio):
     if audio is None:
@@ -19,40 +22,40 @@ def classify_accent(audio):
     print(f"Entrada de audio recibida: {audio}")
     try:
-        audio_array = audio[1]  #
-        sample_rate = audio[0]  #
         print(f"Forma del audio: {audio_array.shape}, Frecuencia de muestreo: {sample_rate}")
-        #
         audio_array = audio_array.astype(np.float32)
-        #
         if sample_rate != 16000:
             import librosa
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
         input_values = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_values
-        # Infer
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1).item()
-        #
         labels = ["Español", "Otro"]
         return labels[predicted_ids]
     except Exception as e:
         return f"Error al procesar el audio: {str(e)}"
-#
 description_html = """
 <p>Prueba con grabación o cargando un archivo de audio. Para probar, recomiendo una palabra.</p>
-<p>Ramon Mayor Martins, Ph.D.: <a href="https://rmayormartins.github.io/" target="_blank">Website</a> | <a href="https://huggingface.co/rmayormartins" target="_blank">Spaces</a></p>
 """
-#
 interface = gr.Interface(
     fn=classify_accent,
     inputs=gr.Audio(type="numpy"),

 import gradio as gr
 import torch
 import numpy as np
+from transformers import Wav2Vec2Processor
+from safetensors.torch import load_file
+# Carregar o modelo e o processador salvos
 model_name = "results"
 processor = Wav2Vec2Processor.from_pretrained(model_name)
+# Carregar o modelo do arquivo safetensors
+model = load_file("results/model.safetensors")
 def classify_accent(audio):
     if audio is None:
     print(f"Entrada de audio recibida: {audio}")
     try:
+        audio_array = audio[1]  # O áudio da tupla
+        sample_rate = audio[0]  # A taxa de amostragem da tupla
         print(f"Forma del audio: {audio_array.shape}, Frecuencia de muestreo: {sample_rate}")
+        # Converter o áudio para float32
         audio_array = audio_array.astype(np.float32)
+        # Resample para 16kHz, se necessário
         if sample_rate != 16000:
             import librosa
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=16000)
         input_values = processor(audio_array, return_tensors="pt", sampling_rate=16000).input_values
+        # Inferência
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1).item()
+        # IDs de sotaque
         labels = ["Español", "Otro"]
         return labels[predicted_ids]
     except Exception as e:
         return f"Error al procesar el audio: {str(e)}"
+# Interface do Gradio
 description_html = """
 <p>Prueba con grabación o cargando un archivo de audio. Para probar, recomiendo una palabra.</p>
+<p>Ramon Mayor Martins: <a href="https://rmayormartins.github.io/" target="_blank">Website</a> | <a href="https://huggingface.co/rmayormartins" target="_blank">Spaces</a></p>
 """
+# Interface do Gradio
 interface = gr.Interface(
     fn=classify_accent,
     inputs=gr.Audio(type="numpy"),

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
-gradio==4.29.0
 torch==2.0.1
 numpy==1.23.5
 transformers==4.24.0
 librosa==0.9.2

+gradio==4.12.0
 torch==2.0.1
 numpy==1.23.5
 transformers==4.24.0
 librosa==0.9.2
+safetensors==0.2.9