Dokdo-multimodal

Paused

App Files Files Community

aiqcamp commited on Dec 22, 2024

Commit

decba1f

verified ·

1 Parent(s): d974483

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -31

app.py CHANGED Viewed

@@ -66,42 +66,48 @@ setup_eval_logging()
 net, feature_utils, seq_cfg = get_model()
 @spaces.GPU(duration=120)
 @torch.inference_mode()
 def video_to_audio(video_path: str, prompt: str, negative_prompt: str = "music",
                    seed: int = -1, num_steps: int = 25,
                    cfg_strength: float = 4.5, duration: float = 8):
-    rng = torch.Generator(device=device)
-    if seed >= 0:
-        rng.manual_seed(seed)
-    else:
-        rng.seed()
-    fm = FlowMatching(min_sigma=0, inference_mode='euler', num_steps=num_steps)
-    video_info = load_video(video_path, duration)
-    clip_frames = video_info.clip_frames
-    sync_frames = video_info.sync_frames
-    duration = video_info.duration_sec
-    clip_frames = clip_frames.unsqueeze(0)
-    sync_frames = sync_frames.unsqueeze(0)
-    seq_cfg.duration = duration
-    net.update_seq_lengths(seq_cfg.latent_seq_len, seq_cfg.clip_seq_len, seq_cfg.sync_seq_len)
-    audios = generate(clip_frames,
-                      sync_frames, [prompt],
-                      negative_text=[negative_prompt],
-                      feature_utils=feature_utils,
-                      net=net,
-                      fm=fm,
-                      rng=rng,
-                      cfg_strength=cfg_strength)
-    audio = audios.float().cpu()[0]
-    video_save_path = tempfile.NamedTemporaryFile(delete=False, suffix='.mp4').name
-    make_video(video_info, video_save_path, audio, sampling_rate=seq_cfg.sampling_rate)
-    logger.info(f'Saved video with audio to {video_save_path}')
-    return video_save_path
 def upload_to_catbox(file_path):
     """catbox.moe API를 사용하여 파일 업로드"""

 net, feature_utils, seq_cfg = get_model()
 @spaces.GPU(duration=120)
 @torch.inference_mode()
 def video_to_audio(video_path: str, prompt: str, negative_prompt: str = "music",
                    seed: int = -1, num_steps: int = 25,
                    cfg_strength: float = 4.5, duration: float = 8):
+    try:
+        rng = torch.Generator(device=device)
+        if seed >= 0:
+            rng.manual_seed(seed)
+        else:
+            rng.seed()
+        fm = FlowMatching(min_sigma=0, inference_mode='euler', num_steps=num_steps)
+        # duration 파라미터 전달 방식 수정
+        video_info = load_video(video_path, static_duration=duration)  # static_duration으로 변경
+        clip_frames = video_info.clip_frames
+        sync_frames = video_info.sync_frames
+        actual_duration = video_info.duration_sec
+        clip_frames = clip_frames.unsqueeze(0)
+        sync_frames = sync_frames.unsqueeze(0)
+        seq_cfg.duration = actual_duration
+        net.update_seq_lengths(seq_cfg.latent_seq_len, seq_cfg.clip_seq_len, seq_cfg.sync_seq_len)
+        audios = generate(clip_frames,
+                          sync_frames, [prompt],
+                          negative_text=[negative_prompt],
+                          feature_utils=feature_utils,
+                          net=net,
+                          fm=fm,
+                          rng=rng,
+                          cfg_strength=cfg_strength)
+        audio = audios.float().cpu()[0]
+        video_save_path = tempfile.NamedTemporaryFile(delete=False, suffix='.mp4').name
+        make_video(video_info, video_save_path, audio, sampling_rate=seq_cfg.sampling_rate)
+        logger.info(f'Saved video with audio to {video_save_path}')
+        return video_save_path
+    except Exception as e:
+        logger.error(f"Error in video_to_audio: {str(e)}")
+        return video_path  # 오류 발생 시 원본 비디오 반환
 def upload_to_catbox(file_path):
     """catbox.moe API를 사용하여 파일 업로드"""