Spaces:

None1145
/

GPT-SoVITS

Sleeping

App Files Files Community

None1145 commited on Nov 9, 2024

Commit

46b65aa

verified ·

1 Parent(s): d86778e

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -13

app.py CHANGED Viewed

@@ -30,13 +30,10 @@ bert_path = f"./PretrainedModels/{model_id}/chinese-roberta-wwm-ext-large"
 import gradio as gr
 from transformers import AutoModelForMaskedLM, AutoTokenizer
-import sys,torch,numpy as np
 from pathlib import Path
-import os,pdb,utils,librosa,math,traceback,requests,argparse,torch,multiprocessing,pandas as pd,torch.multiprocessing as mp,soundfile
-# torch.backends.cuda.sdp_kernel("flash")
-# torch.backends.cuda.enable_flash_sdp(True)
-# torch.backends.cuda.enable_mem_efficient_sdp(True)  # Not avaliable if torch version is lower than 2.0
-# torch.backends.cuda.enable_math_sdp(True)
 from random import shuffle
 from AR.utils import get_newest_ckpt
 from glob import glob
@@ -61,17 +58,15 @@ logging.getLogger('multipart').setLevel(logging.WARNING)
 device = "cpu"
 is_half = False
 tokenizer = AutoTokenizer.from_pretrained(bert_path)
 bert_model=AutoModelForMaskedLM.from_pretrained(bert_path)
 if(is_half==True):bert_model=bert_model.half().to(device)
 else:bert_model=bert_model.to(device)
-# bert_model=bert_model.to(device)
 def get_bert_feature(text, word2ph):
     with torch.no_grad():
         inputs = tokenizer(text, return_tensors="pt")
         for i in inputs:
-            inputs[i] = inputs[i].to(device)#####输入是long不用管精度问题，精度随bert_model
         res = bert_model(**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()[1:-1]
     assert len(word2ph) == len(text)
@@ -80,10 +75,8 @@ def get_bert_feature(text, word2ph):
         repeat_feature = res[i].repeat(word2ph[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)
-    # if(is_half==True):phone_level_feature=phone_level_feature.half()
     return phone_level_feature.T
 def load_model(sovits_path, gpt_path):
     n_semantic = 1024
     dict_s2 = torch.load(sovits_path, map_location="cpu")
@@ -224,6 +217,18 @@ def split(todo_text):
 def change_reference_audio(prompt_text, transcripts):
     return transcripts[prompt_text]
 models = []
 models_info = {}
 models_folder_path = "./Models/None1145"
@@ -258,6 +263,8 @@ for folder_name in folder_names:
     models_info[speaker]["gpt_weight"] = f"{gpt_path}/{max_file}"
     data_path = f"{models_folder_path}/{folder_name}/Data"
     models_info[speaker]["transcript"] = {}
     with open(f"{data_path}/{speaker}.list", "r", encoding="utf-8") as f:
         for line in f.read().split("\n"):
             try:
@@ -266,8 +273,10 @@ for folder_name in folder_names:
                 break
             text = line.split("|")[3]
             print(wav, text)
             models_info[speaker]["transcript"][text] = wav
-            models_info[speaker]["example_reference"] = text
     print(models_info)
 for speaker in models_info:
     speaker_info = models_info[speaker]
@@ -322,7 +331,7 @@ with gr.Blocks() as app:
                         text_language = gr.Dropdown(
                             label="Language",
                             choices=["zh", "en", "ja"],
-                            value="ja"
                         )
                         inference_button = gr.Button("Generate", variant="primary")
                         om = gr.Textbox(label="Output Message")

 import gradio as gr
 from transformers import AutoModelForMaskedLM, AutoTokenizer
+import sys, torch, numpy as np
 from pathlib import Path
+from pydub import AudioSegment
+import librosa, math, traceback, requests, argparse, torch, multiprocessing, pandas as pd, torch.multiprocessing as mp, soundfile
 from random import shuffle
 from AR.utils import get_newest_ckpt
 from glob import glob
 device = "cpu"
 is_half = False
 tokenizer = AutoTokenizer.from_pretrained(bert_path)
 bert_model=AutoModelForMaskedLM.from_pretrained(bert_path)
 if(is_half==True):bert_model=bert_model.half().to(device)
 else:bert_model=bert_model.to(device)
 def get_bert_feature(text, word2ph):
     with torch.no_grad():
         inputs = tokenizer(text, return_tensors="pt")
         for i in inputs:
+            inputs[i] = inputs[i].to(device)
         res = bert_model(**inputs, output_hidden_states=True)
         res = torch.cat(res["hidden_states"][-3:-2], -1)[0].cpu()[1:-1]
     assert len(word2ph) == len(text)
         repeat_feature = res[i].repeat(word2ph[i], 1)
         phone_level_feature.append(repeat_feature)
     phone_level_feature = torch.cat(phone_level_feature, dim=0)
     return phone_level_feature.T
 def load_model(sovits_path, gpt_path):
     n_semantic = 1024
     dict_s2 = torch.load(sovits_path, map_location="cpu")
 def change_reference_audio(prompt_text, transcripts):
     return transcripts[prompt_text]
+def get_audio_duration(path):
+    audio = AudioSegment.from_wav(path)
+    return len(audio) / 1000
+def select_audio_file(wav_paths):
+    import random
+    eligible_files = [path for path in wav_paths if 3 <= get_audio_duration(path) <= 10]
+    if eligible_files:
+        selected_file = random.choice(eligible_files)
+    else:
+        selected_file = random.choice(wav_paths)
+    return selected_file
 models = []
 models_info = {}
 models_folder_path = "./Models/None1145"
     models_info[speaker]["gpt_weight"] = f"{gpt_path}/{max_file}"
     data_path = f"{models_folder_path}/{folder_name}/Data"
     models_info[speaker]["transcript"] = {}
+    wavs = []
+    tmp = {}
     with open(f"{data_path}/{speaker}.list", "r", encoding="utf-8") as f:
         for line in f.read().split("\n"):
             try:
                 break
             text = line.split("|")[3]
             print(wav, text)
+            wavs.append(wav)
+            tmp[wav] = text
             models_info[speaker]["transcript"][text] = wav
+        models_info[speaker]["example_reference"] = tmp[select_audio_file(wavs)]
     print(models_info)
 for speaker in models_info:
     speaker_info = models_info[speaker]
                         text_language = gr.Dropdown(
                             label="Language",
                             choices=["zh", "en", "ja"],
+                            value="zh"
                         )
                         inference_button = gr.Button("Generate", variant="primary")
                         om = gr.Textbox(label="Output Message")