Spaces:

JackismyShephard
/

danish-speech-synthesis

Runtime error

JackismyShephard commited on Jan 21, 2024

Commit

831b161

1 Parent(s): 7cbdcbc

use pipe abstraction for inference

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,17 @@ import gradio as gr
 import numpy as np
 import torch
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
-checkpoint_base = "microsoft/speecht5_tts"
 checkpoint_finetuned = "JackismyShephard/speecht5_tts-finetuned-nst-da"
-processor = SpeechT5Processor.from_pretrained(checkpoint_base)
-model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint_finetuned)
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
 speaker_embeddings = {
     "F23": "embeddings/female_23_vestjylland.npy",
@@ -26,12 +30,6 @@ def predict(text, speaker):
     text = replace_danish_letters(text)
-    inputs = processor(text=text, return_tensors="pt")
-    # limit input length
-    input_ids = inputs["input_ids"]
-    # input_ids = input_ids[..., : model.config.max_text_positions]
     speaker_id = speaker[:3]
     speaker_embedding_path = speaker_embeddings[speaker_id]
@@ -40,10 +38,10 @@ def predict(text, speaker):
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
-    speech = model.generate_speech(input_ids, speaker_embedding, vocoder=vocoder)
-    speech = speech.numpy()
-    return (16000, speech)
 def replace_danish_letters(text):

 import numpy as np
 import torch
+from transformers import pipeline
 checkpoint_finetuned = "JackismyShephard/speecht5_tts-finetuned-nst-da"
+pipe = pipeline(
+    "text-to-speech",
+    model=checkpoint_finetuned,
+    use_fast=True,
+    device=0 if torch.cuda.is_available() else "cpu",
+)
 speaker_embeddings = {
     "F23": "embeddings/female_23_vestjylland.npy",
     text = replace_danish_letters(text)
     speaker_id = speaker[:3]
     speaker_embedding_path = speaker_embeddings[speaker_id]
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
+    forward_params = {"speaker_embeddings": speaker_embedding}
+    speech = pipe(text, forward_params=forward_params)
+    return (speech["sampling_rate"], speech["audio"])
 def replace_danish_letters(text):