cantonese-call-transcriber

Running

App Files Files Community

terry-li-hm commited on Sep 6, 2024

Commit

128a0e2

1 Parent(s): 458cf48

Update

Browse files

Files changed (1) hide show

sv.py +35 -5

sv.py CHANGED Viewed

@@ -241,11 +241,41 @@ def generate_diarization(audio_path):
     diarization_segments = []
     txt_file = "mtr_dn.txt"
     with open(txt_file, "w") as f:
         for turn, _, speaker in output.itertracks(yield_label=True):
-            start_time = format_time(turn.start)
-            end_time = format_time(turn.end)
-            duration = format_time(turn.end - turn.start)
-            line = f"{start_time} - {end_time} ({duration}): {speaker}\n"
             f.write(line)
             print(line.strip())
             diarization_segments.append(
@@ -253,7 +283,7 @@ def generate_diarization(audio_path):
                     parse_time(start_time),
                     parse_time(end_time),
                     parse_time(duration),
-                    speaker,
                 )
             )

     diarization_segments = []
     txt_file = "mtr_dn.txt"
     with open(txt_file, "w") as f:
+        current_speaker = None
+        current_start = None
+        current_end = None
         for turn, _, speaker in output.itertracks(yield_label=True):
+            if speaker != current_speaker:
+                if current_speaker is not None:
+                    start_time = format_time(current_start)
+                    end_time = format_time(current_end)
+                    duration = format_time(current_end - current_start)
+                    line = (
+                        f"{start_time} - {end_time} ({duration}): {current_speaker}\n"
+                    )
+                    f.write(line)
+                    print(line.strip())
+                    diarization_segments.append(
+                        (
+                            parse_time(start_time),
+                            parse_time(end_time),
+                            parse_time(duration),
+                            current_speaker,
+                        )
+                    )
+                current_speaker = speaker
+                current_start = turn.start
+                current_end = turn.end
+            else:
+                current_end = turn.end
+        # Write the last segment
+        if current_speaker is not None:
+            start_time = format_time(current_start)
+            end_time = format_time(current_end)
+            duration = format_time(current_end - current_start)
+            line = f"{start_time} - {end_time} ({duration}): {current_speaker}\n"
             f.write(line)
             print(line.strip())
             diarization_segments.append(
                     parse_time(start_time),
                     parse_time(end_time),
                     parse_time(duration),
+                    current_speaker,
                 )
             )