Spaces:

gabrielchua
/

open-notebooklm

Running on T4

App Files Files Community

gabrielchua commited on Sep 30

Commit

8ddd281

•

1 Parent(s): 5534c51

use SUNO

Browse files

Files changed (3) hide show

app.py +17 -2
requirements.txt +2 -1
utils.py +38 -22

app.py CHANGED Viewed

@@ -21,6 +21,21 @@ from pydub import AudioSegment
 from prompts import SYSTEM_PROMPT
 from utils import generate_script, generate_audio, parse_url
 class DialogueItem(BaseModel):
     """A single dialogue item."""
@@ -139,7 +154,7 @@ def generate_podcast(
         # Get audio file path
         audio_file_path = generate_audio(
-            line.text, line.speaker, language_mapping[language]
         )
         # Read the audio file into an AudioSegment
         audio_segment = AudioSegment.from_file(audio_file_path)
@@ -206,7 +221,7 @@ demo = gr.Interface(
             value="Medium (3-5 min)"
         ),
         gr.Dropdown(
-            choices=["English", "Spanish", "French", "Chinese", "Japanese", "Korean"],
             value="English",
             label="6. 🌐 Choose the language"
         ),

 from prompts import SYSTEM_PROMPT
 from utils import generate_script, generate_audio, parse_url
+LANGUAGE_MAPPING = {
+    "English": "en",
+    "Chinese": "zh",
+    "French": "fr",
+    "German": "de",
+    "Hindi": "hi",
+    "Italian": "it",
+    "Japanese": "ja",
+    "Korean": "ko",
+    "Polish": "pl",
+    "Portuguese": "pt",
+    "Russian": "ru",
+    "Spanish": "es",
+    "Turkish": "tr"
+}
 class DialogueItem(BaseModel):
     """A single dialogue item."""
         # Get audio file path
         audio_file_path = generate_audio(
+            line.text, line.speaker, LANGUAGE_MAPPING[language]
         )
         # Read the audio file into an AudioSegment
         audio_segment = AudioSegment.from_file(audio_file_path)
             value="Medium (3-5 min)"
         ),
         gr.Dropdown(
+            choices=list(LANGUAGE_MAPPING.keys()),
             value="English",
             label="6. 🌐 Choose the language"
         ),

requirements.txt CHANGED Viewed

@@ -8,4 +8,5 @@ pypdf==4.1
 sentry-sdk==2.5
 spaces==0.30.2
-tenacity==8.3

 sentry-sdk==2.5
 spaces==0.30.2
+tenacity==8.3
+git+https://github.com/suno-ai/bark.git

utils.py CHANGED Viewed

@@ -9,11 +9,13 @@ Functions:
 import os
 import requests
 from gradio_client import Client
 from openai import OpenAI
 from pydantic import ValidationError
 MODEL_ID = "accounts/fireworks/models/llama-v3p1-405b-instruct"
 JINA_URL = "https://r.jina.ai/"
@@ -22,7 +24,10 @@ client = OpenAI(
     api_key=os.getenv("FIREWORKS_API_KEY"),
 )
-hf_client = Client("mrfakename/MeloTTS")
 def generate_script(system_prompt: str, input_text: str, output_model):
@@ -73,23 +78,34 @@ def parse_url(url: str) -> str:
     return response.text
-def generate_audio(text: str, speaker: str, language: str) -> bytes:
-    """Get the audio from the TTS model from HF Spaces and adjust pitch if necessary."""
-    if speaker == "Guest":
-        accent = "EN-US" if language == "EN" else language
-        speed = 0.9
-    else:  # host
-        accent = "EN-Default" if language == "EN" else language
-        speed = 1
-    if language != "EN" and speaker != "Guest":
-        speed = 1.1
-    # Generate audio
-    result = hf_client.predict(
-        text=text,
-        language=language,
-        speaker=accent,
-        speed=speed,
-        api_name="/synthesize",
-    )
-    return result

 import os
 import requests
 from gradio_client import Client
 from openai import OpenAI
 from pydantic import ValidationError
+from bark import SAMPLE_RATE, generate_audio, preload_models
+from scipy.io.wavfile import write as write_wav
 MODEL_ID = "accounts/fireworks/models/llama-v3p1-405b-instruct"
 JINA_URL = "https://r.jina.ai/"
     api_key=os.getenv("FIREWORKS_API_KEY"),
 )
+# hf_client = Client("mrfakename/MeloTTS")
+# download and load all models
+preload_models()
 def generate_script(system_prompt: str, input_text: str, output_model):
     return response.text
+def generate_audio(text: str, speaker: str, language: str) -> str:
+    audio_array = generate_audio(text, history_prompt=f"v2/{language}_speaker_{'1' if speaker == 'Host (Jane)' else '3'}")
+    file_path = f"audio_{language}_{speaker}.mp3"
+    # save audio to disk
+    write_wav(file_path, SAMPLE_RATE, audio_array)
+    return file_path
+    # """Get the audio from the TTS model from HF Spaces and adjust pitch if necessary."""
+    # if speaker == "Guest":
+    #     accent = "EN-US" if language == "EN" else language
+    #     speed = 0.9
+    # else:  # host
+    #     accent = "EN-Default" if language == "EN" else language
+    #     speed = 1
+    # if language != "EN" and speaker != "Guest":
+    #     speed = 1.1
+    # # Generate audio
+    # result = hf_client.predict(
+    #     text=text,
+    #     language=language,
+    #     speaker=accent,
+    #     speed=speed,
+    #     api_name="/synthesize",
+    # )
+    # return result