aiavatartest

Paused

App Files Files Community

Spanicin commited on Aug 2, 2024

Commit

44dcd57

verified ·

1 Parent(s): 7bb8883

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -88

app.py CHANGED Viewed

@@ -226,100 +226,103 @@ def generate_video():
     global TEMP_DIR
     TEMP_DIR = create_temp_dir()
     print('request:',request.method)
-    if request.method == 'POST':
-        source_image = request.files['source_image']
-        text_prompt = request.form['text_prompt']
-        print('Input text prompt: ',text_prompt)
-        voice_cloning = request.form.get('voice_cloning', 'no')
-        target_language = request.form.get('target_language', 'original_text')
-        print('target_language',target_language)
-        pose_style = int(request.form.get('pose_style', 1))
-        expression_scale = float(request.form.get('expression_scale', 1))
-        enhancer = request.form.get('enhancer', None)
-        voice_gender = request.form.get('voice_gender', 'male')
-        still_str = request.form.get('still', 'False')
-        still = still_str.lower() == 'true'
-        print('still', still)
-        preprocess = request.form.get('preprocess', 'crop')
-        print('preprocess selected: ',preprocess)
-        ref_pose_video = request.files.get('ref_pose', None)
-        if target_language != 'original_text':
-            response = translate_text(text_prompt, target_language)
-            # response = await translate_text_async(text_prompt, target_language)
-            text_prompt = response.choices[0].message.content.strip()
-        app.config['text_prompt'] = text_prompt
-        print('Final text prompt: ',text_prompt)
-        source_image_path = save_uploaded_file(source_image, 'source_image.png',TEMP_DIR)
-        print(source_image_path)
-        # driven_audio_path = await voice_cloning_async(voice_cloning, voice_gender, text_prompt, user_voice)
-        if voice_cloning == 'no':
-            if voice_gender == 'male':
-                voice = 'echo'
-                print('Entering Audio creation using elevenlabs')
                 set_api_key("92e149985ea2732b4359c74346c3daee")
-                audio = generate(text = text_prompt, voice = "Daniel", model = "eleven_multilingual_v2",stream=True, latency=4)
-                with tempfile.NamedTemporaryFile(suffix=".mp3", prefix="text_to_speech_",dir=TEMP_DIR.name, delete=False) as temp_file:
                     for chunk in audio:
                         temp_file.write(chunk)
                     driven_audio_path = temp_file.name
                     print('driven_audio_path',driven_audio_path)
-                    print('Audio file saved using elevenlabs')
-            else:
-                voice = 'nova'
-                print('Entering Audio creation using whisper')
-                response = client.audio.speech.create(model="tts-1-hd",
-                                                voice=voice,
-                                                input = text_prompt)
-                print('Audio created using whisper')
-                with tempfile.NamedTemporaryFile(suffix=".wav", prefix="text_to_speech_",dir=TEMP_DIR.name, delete=False) as temp_file:
-                    driven_audio_path = temp_file.name
-                response.write_to_file(driven_audio_path)
-                print('Audio file saved using whisper')
-        elif voice_cloning == 'yes':
-            user_voice = request.files['user_voice']
-            with tempfile.NamedTemporaryFile(suffix=".wav", prefix="user_voice_",dir=TEMP_DIR.name, delete=False) as temp_file:
-                user_voice_path = temp_file.name
-                user_voice.save(user_voice_path)
-                print('user_voice_path',user_voice_path)
-            set_api_key("92e149985ea2732b4359c74346c3daee")
-            voice = clone(name = "User Cloned Voice",
-                        files = [user_voice_path] )
-            audio = generate(text = text_prompt, voice = voice, model = "eleven_multilingual_v2",stream=True, latency=4)
-            with tempfile.NamedTemporaryFile(suffix=".mp3", prefix="cloned_audio_",dir=TEMP_DIR.name, delete=False) as temp_file:
-                for chunk in audio:
-                    temp_file.write(chunk)
-                driven_audio_path = temp_file.name
-                print('driven_audio_path',driven_audio_path)
-            #     elevenlabs.save(audio, driven_audio_path)
-        save_dir = tempfile.mkdtemp(dir=TEMP_DIR.name)
-        result_folder = os.path.join(save_dir, "results")
-        os.makedirs(result_folder, exist_ok=True)
-        ref_pose_video_path = None
-        if ref_pose_video:
-            with tempfile.NamedTemporaryFile(suffix=".mp4", prefix="ref_pose_",dir=TEMP_DIR.name, delete=False) as temp_file:
-                ref_pose_video_path = temp_file.name
-                ref_pose_video.save(ref_pose_video_path)
-                print('ref_pose_video_path',ref_pose_video_path)
-    print("driven_audio_path: ")
-    print(driven_audio_path)
     # Example of using the class with some hypothetical paths
     args = AnimationConfig(driven_audio_path=driven_audio_path, source_image_path=source_image_path, result_folder=result_folder, pose_style=pose_style, expression_scale=expression_scale, enhancer=enhancer,still=still,preprocess=preprocess,ref_pose_video_path=ref_pose_video_path)

     global TEMP_DIR
     TEMP_DIR = create_temp_dir()
     print('request:',request.method)
+    try:
+        if request.method == 'POST':
+            source_image = request.files['source_image']
+            text_prompt = request.form['text_prompt']
+            print('Input text prompt: ',text_prompt)
+            voice_cloning = request.form.get('voice_cloning', 'no')
+            target_language = request.form.get('target_language', 'original_text')
+            print('target_language',target_language)
+            pose_style = int(request.form.get('pose_style', 1))
+            expression_scale = float(request.form.get('expression_scale', 1))
+            enhancer = request.form.get('enhancer', None)
+            voice_gender = request.form.get('voice_gender', 'male')
+            still_str = request.form.get('still', 'False')
+            still = still_str.lower() == 'true'
+            print('still', still)
+            preprocess = request.form.get('preprocess', 'crop')
+            print('preprocess selected: ',preprocess)
+            ref_pose_video = request.files.get('ref_pose', None)
+            if target_language != 'original_text':
+                response = translate_text(text_prompt, target_language)
+                # response = await translate_text_async(text_prompt, target_language)
+                text_prompt = response.choices[0].message.content.strip()
+            app.config['text_prompt'] = text_prompt
+            print('Final text prompt: ',text_prompt)
+            source_image_path = save_uploaded_file(source_image, 'source_image.png',TEMP_DIR)
+            print(source_image_path)
+            # driven_audio_path = await voice_cloning_async(voice_cloning, voice_gender, text_prompt, user_voice)
+            if voice_cloning == 'no':
+                if voice_gender == 'male':
+                    voice = 'echo'
+                    print('Entering Audio creation using elevenlabs')
+                    set_api_key("92e149985ea2732b4359c74346c3daee")
+                    audio = generate(text = text_prompt, voice = "Daniel", model = "eleven_multilingual_v2",stream=True, latency=4)
+                    with tempfile.NamedTemporaryFile(suffix=".mp3", prefix="text_to_speech_",dir=TEMP_DIR.name, delete=False) as temp_file:
+                        for chunk in audio:
+                            temp_file.write(chunk)
+                        driven_audio_path = temp_file.name
+                        print('driven_audio_path',driven_audio_path)
+                        print('Audio file saved using elevenlabs')
+                else:
+                    voice = 'nova'
+                    print('Entering Audio creation using whisper')
+                    response = client.audio.speech.create(model="tts-1-hd",
+                                                    voice=voice,
+                                                    input = text_prompt)
+                    print('Audio created using whisper')
+                    with tempfile.NamedTemporaryFile(suffix=".wav", prefix="text_to_speech_",dir=TEMP_DIR.name, delete=False) as temp_file:
+                        driven_audio_path = temp_file.name
+                    response.write_to_file(driven_audio_path)
+                    print('Audio file saved using whisper')
+            elif voice_cloning == 'yes':
+                user_voice = request.files['user_voice']
+                with tempfile.NamedTemporaryFile(suffix=".wav", prefix="user_voice_",dir=TEMP_DIR.name, delete=False) as temp_file:
+                    user_voice_path = temp_file.name
+                    user_voice.save(user_voice_path)
+                    print('user_voice_path',user_voice_path)
                 set_api_key("92e149985ea2732b4359c74346c3daee")
+                voice = clone(name = "User Cloned Voice",
+                            files = [user_voice_path] )
+                audio = generate(text = text_prompt, voice = voice, model = "eleven_multilingual_v2",stream=True, latency=4)
+                with tempfile.NamedTemporaryFile(suffix=".mp3", prefix="cloned_audio_",dir=TEMP_DIR.name, delete=False) as temp_file:
                     for chunk in audio:
                         temp_file.write(chunk)
                     driven_audio_path = temp_file.name
                     print('driven_audio_path',driven_audio_path)
+                #     elevenlabs.save(audio, driven_audio_path)
+            save_dir = tempfile.mkdtemp(dir=TEMP_DIR.name)
+            result_folder = os.path.join(save_dir, "results")
+            os.makedirs(result_folder, exist_ok=True)
+            ref_pose_video_path = None
+            if ref_pose_video:
+                with tempfile.NamedTemporaryFile(suffix=".mp4", prefix="ref_pose_",dir=TEMP_DIR.name, delete=False) as temp_file:
+                    ref_pose_video_path = temp_file.name
+                    ref_pose_video.save(ref_pose_video_path)
+                    print('ref_pose_video_path',ref_pose_video_path)
+    except Exception as e:
+        app.logger.error(f"An error occurred: {e}")
+        return "An error occurred", 500
     # Example of using the class with some hypothetical paths
     args = AnimationConfig(driven_audio_path=driven_audio_path, source_image_path=source_image_path, result_folder=result_folder, pose_style=pose_style, expression_scale=expression_scale, enhancer=enhancer,still=still,preprocess=preprocess,ref_pose_video_path=ref_pose_video_path)