Spaces:

QLWD
/

speaker

Sleeping

App Files Files Community

QLWD commited on 25 days ago

Commit

56ae4bd

•

1 Parent(s): 8a8a249

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -5

app.py CHANGED Viewed

@@ -24,12 +24,22 @@ except Exception as e:
 def combine_audio_with_time(target_audio, mixed_audio):
     if pipeline is None:
         return "错误: 模型未初始化"
     # 加载目标说话人的样本音频
-    target_audio_segment = AudioSegment.from_wav(target_audio)
     # 加载混合音频
-    mixed_audio_segment = AudioSegment.from_wav(mixed_audio)
     # 记录目标说话人音频的时间点（精确到0.01秒）
     target_start_time = len(mixed_audio_segment) / 1000  # 秒为单位，精确到 0.01 秒
@@ -38,9 +48,10 @@ def combine_audio_with_time(target_audio, mixed_audio):
     target_end_time = target_start_time + len(target_audio_segment) / 1000  # 秒为单位
     # 将目标说话人的音频片段添加到混合音频的最后
-    mixed_audio_segment + target_audio_segment
-    # 返回字典，包含目标音频的起始和结束时间
     return {"start_time": target_start_time, "end_time": target_end_time}
 # 使用 pyannote/speaker-diarization 对拼接后的音频进行说话人分离
@@ -94,6 +105,9 @@ def timestamp_to_seconds(timestamp):
 # 处理音频文件并返回输出
 def process_audio(target_audio, mixed_audio):
     # 进行音频拼接并返回目标音频的起始和结束时间（作为字典）
     time_dict = combine_audio_with_time(target_audio, mixed_audio)

 def combine_audio_with_time(target_audio, mixed_audio):
     if pipeline is None:
         return "错误: 模型未初始化"
+    # 打印文件路径，确保文件正确传递
+    print(f"目标音频文件路径: {target_audio}")
+    print(f"混合音频文件路径: {mixed_audio}")
     # 加载目标说话人的样本音频
+    try:
+        target_audio_segment = AudioSegment.from_wav(target_audio)
+    except Exception as e:
+        return f"加载目标音频时出错: {e}"
     # 加载混合音频
+    try:
+        mixed_audio_segment = AudioSegment.from_wav(mixed_audio)
+    except Exception as e:
+        return f"加载混合音频时出错: {e}"
     # 记录目标说话人音频的时间点（精确到0.01秒）
     target_start_time = len(mixed_audio_segment) / 1000  # 秒为单位，精确到 0.01 秒
     target_end_time = target_start_time + len(target_audio_segment) / 1000  # 秒为单位
     # 将目标说话人的音频片段添加到混合音频的最后
+    final_audio = mixed_audio_segment + target_audio_segment
+    final_audio.export("final_output.wav", format="wav")
+    # 返回目标音频的起始时间和结束时间
     return {"start_time": target_start_time, "end_time": target_end_time}
 # 使用 pyannote/speaker-diarization 对拼接后的音频进行说话人分离
 # 处理音频文件并返回输出
 def process_audio(target_audio, mixed_audio):
+    # 打印文件路径，确保传入的文件有效
+    print(f"处理音频：目标音频: {target_audio}, 混合音频: {mixed_audio}")
     # 进行音频拼接并返回目标音频的起始和结束时间（作为字典）
     time_dict = combine_audio_with_time(target_audio, mixed_audio)