Spaces:

fffiloni
/

speech-to-image

Paused

fffiloni commited on Oct 24, 2022

Commit

f5b40d5

1 Parent(s): 69e8714

added whisper load_audio

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 import torch
 from diffusers import DiffusionPipeline
 from transformers import (
     WhisperForConditionalGeneration,
@@ -37,22 +37,13 @@ Community examples consist of both inference and training examples that have bee
 <a href='https://github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image' target='_blank'> Click here for more information about community pipelines </a>
 </p>
 """
-audio_input = gr.Audio(source="microphone", type="numpy")
 image_output = gr.Image()
 def speech_to_text(audio_sample):
-  #text = audio_sample["text"].lower()
-  #print(text)
-  #speech_data = audio_sample["audio"]["array"]
-  print(f"""
-  ————————
-  audio sample: {audio_sample}
-  audio array: {audio_sample[1]}
-  ————————
-  """)
-  output = diffuser_pipeline(audio_sample[1])
   print(f"""
   ————————

 import gradio as gr
 import torch
+from whisper import load_audio
 from diffusers import DiffusionPipeline
 from transformers import (
     WhisperForConditionalGeneration,
 <a href='https://github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image' target='_blank'> Click here for more information about community pipelines </a>
 </p>
 """
+audio_input = gr.Audio(source="microphone", type="filepath")
 image_output = gr.Image()
 def speech_to_text(audio_sample):
+  process_audio = whisper.load_audio(audio_sample)
+  output = diffuser_pipeline(process_audio)
   print(f"""
   ————————