Spaces:

saq1b
/

podcastgen

Running

App Files Files Community

saq1b commited on Sep 24, 2024

Commit

1491507

verified ·

1 Parent(s): b4a62f5

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -19

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from pydub import AudioSegment
-from groq import AsyncGroq
 import json
 import uuid
 import io
@@ -12,10 +13,10 @@ import os
 from typing import List, Dict, Tuple
 class PodcastGenerator:
-    def __init__(self, groq_api_key: str):
-        self.groq_client = AsyncGroq(api_key=groq_api_key)
-    async def generate_script(self, prompt: str, language: str) -> Dict:
         example = """
 {
     "topic": "AGI",
@@ -228,19 +229,32 @@ Follow this example structure:
         user_prompt = f"Please generate a podcast script based on the following user input:\n{prompt}"
         messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt}
         ]
-        response = await self.groq_client.chat.completions.create(
-            messages=messages,
-            model="llama-3.1-70b-versatile",
-            response_format={"type": "json_object"},
-            max_tokens=4096,
-            temperature=1,
         )
-        return json.loads(response.choices[0].message.content)
     async def tts_generate(self, text: str, speaker: int, speaker1: str, speaker2: str) -> str:
         voice = speaker1 if speaker == 1 else speaker2
@@ -265,9 +279,11 @@ Follow this example structure:
         combined_audio.export(output_filename, format="wav")
         return output_filename
-    async def generate_podcast(self, input_text: str, language: str, speaker1: str, speaker2: str) -> str:
-        podcast_json = await self.generate_script(input_text, language)
         print(f"Generated podcast script:\n{podcast_json}")
         audio_files = await asyncio.gather(*[self.tts_generate(item['line'], item['speaker'], speaker1, speaker2) for item in podcast_json['podcast']])
         combined_audio = await self.combine_audio_files(audio_files)
         return combined_audio
@@ -293,9 +309,10 @@ class TextExtractor:
         elif file_extension.lower() == '.txt':
             return await cls.extract_from_txt(file_path)
         else:
             raise ValueError(f"Unsupported file type: {file_extension}")
-async def process_input(input_text: str, input_file, language: str, speaker1: str, speaker2: str) -> str:
     voice_names = {
         "Andrew - English (United States)": "en-US-AndrewMultilingualNeural",
         "Ava - English (United States)": "en-US-AvaMultilingualNeural",
@@ -313,8 +330,11 @@ async def process_input(input_text: str, input_file, language: str, speaker1: st
     if input_file:
         input_text = await TextExtractor.extract_text(input_file.name)
-    podcast_generator = PodcastGenerator(groq_api_key=os.environ["GROQ_API_KEY"])
-    return await podcast_generator.generate_podcast(input_text, language, speaker1, speaker2)
 # Define Gradio interface
 iface = gr.Interface(
@@ -360,7 +380,8 @@ iface = gr.Interface(
             "Remy - French (France)",
             "Vivienne - French (France)"
         ],
-        value="Ava - English (United States)")
     ],
     outputs=[
         gr.Audio(label="Generated Podcast Audio")

 import gradio as gr
 from pydub import AudioSegment
+import google.generativeai as genai
+from google.generativeai.types import HarmCategory, HarmBlockThreshold
 import json
 import uuid
 import io
 from typing import List, Dict, Tuple
 class PodcastGenerator:
+    def __init__(self):
+        pass
+    async def generate_script(self, prompt: str, language: str, api_key: str) -> Dict:
         example = """
 {
     "topic": "AGI",
         user_prompt = f"Please generate a podcast script based on the following user input:\n{prompt}"
         messages = [
+            {"role": "user", "parts": [user_prompt]}
         ]
+        genai.configure(api_key=api_key)
+        generation_config = {
+        "temperature": 1,
+        "max_output_tokens": 8192,
+        "response_mime_type": "application/json",
+        }
+        model = genai.GenerativeModel(
+        model_name="gemini-1.5-flash",
+        generation_config=generation_config,
+        safety_settings={
+            HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE,
+            HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_NONE,
+            HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
+            HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_NONE
+        },
+        system_instruction=system_prompt
         )
+        response = await model.generate_content_async(messages)
+        return json.loads(response.text)
     async def tts_generate(self, text: str, speaker: int, speaker1: str, speaker2: str) -> str:
         voice = speaker1 if speaker == 1 else speaker2
         combined_audio.export(output_filename, format="wav")
         return output_filename
+    async def generate_podcast(self, input_text: str, language: str, speaker1: str, speaker2: str, api_key: str) -> str:
+        gr.Info("Generating podcast script...")
+        podcast_json = await self.generate_script(input_text, language, api_key)
         print(f"Generated podcast script:\n{podcast_json}")
+        gr.Info("Generating podcast audio files...")
         audio_files = await asyncio.gather(*[self.tts_generate(item['line'], item['speaker'], speaker1, speaker2) for item in podcast_json['podcast']])
         combined_audio = await self.combine_audio_files(audio_files)
         return combined_audio
         elif file_extension.lower() == '.txt':
             return await cls.extract_from_txt(file_path)
         else:
+            gr.Error(f"Unsupported file type: {file_extension}")
             raise ValueError(f"Unsupported file type: {file_extension}")
+async def process_input(input_text: str, input_file, language: str, speaker1: str, speaker2: str, api_key: str = "") -> str:
     voice_names = {
         "Andrew - English (United States)": "en-US-AndrewMultilingualNeural",
         "Ava - English (United States)": "en-US-AvaMultilingualNeural",
     if input_file:
         input_text = await TextExtractor.extract_text(input_file.name)
+    if not api_key:
+        api_key = os.getenv("GENAI_API_KEY")
+    podcast_generator = PodcastGenerator()
+    return await podcast_generator.generate_podcast(input_text, language, speaker1, speaker2, api_key)
 # Define Gradio interface
 iface = gr.Interface(
             "Remy - French (France)",
             "Vivienne - French (France)"
         ],
+        value="Ava - English (United States)"),
+        gr.Textbox(label="Gemini API Key (Optional)", type="password"),
     ],
     outputs=[
         gr.Audio(label="Generated Podcast Audio")