Spaces:

None1145
/

GPT-SoVITS

Sleeping

App Files Files Community

None1145 commited on Nov 9, 2024

Commit

88a3a03

verified ·

1 Parent(s): 08ba840

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -13

app.py CHANGED Viewed

@@ -119,7 +119,6 @@ def load_model(sovits_path, gpt_path):
     vq_model.load_state_dict(dict_s2["weight"], strict=False)
     hz = 50
     max_sec = config['data']['max_sec']
-    # t2s_model = Text2SemanticLightningModule.load_from_checkpoint(checkpoint_path=gpt_path, config=config, map_location="cpu")#########todo
     t2s_model = Text2SemanticLightningModule(config, "ojbk", is_train=False)
     t2s_model.load_state_dict(dict_s1["weight"])
     if (is_half == True): t2s_model = t2s_model.half()
@@ -148,11 +147,11 @@ def create_tts_fn(vq_model, ssl_model, t2s_model, hps, config, hz, max_sec):
         if len(text) > 50:
             return f"Error: Text is too long, ({len(text)}>50)", None
         with torch.no_grad():
-            wav16k, sr = librosa.load(ref_wav_path, sr=16000)  # 派蒙
             wav16k = torch.from_numpy(wav16k)
             if(is_half==True):wav16k=wav16k.half().to(device)
             else:wav16k=wav16k.to(device)
-            ssl_content = ssl_model.model(wav16k.unsqueeze(0))["last_hidden_state"].transpose(1, 2)#.float()
             codes = vq_model.extract_latent(ssl_content)
             prompt_semantic = codes[0, 0]
         t1 = ttime()
@@ -176,23 +175,19 @@ def create_tts_fn(vq_model, ssl_model, t2s_model, hps, config, hz, max_sec):
             prompt = prompt_semantic.unsqueeze(0).to(device)
             t2 = ttime()
             with torch.no_grad():
-                # pred_semantic = t2s_model.model.infer(
                 pred_semantic,idx = t2s_model.model.infer_panel(
                     all_phoneme_ids,
                     all_phoneme_len,
                     prompt,
                     bert,
-                    # prompt_phone_len=ph_offset,
                     top_k=config['inference']['top_k'],
                     early_stop_num=hz * max_sec)
             t3 = ttime()
-            # print(pred_semantic.shape,idx)
-            pred_semantic = pred_semantic[:,-idx:].unsqueeze(0)  # .unsqueeze(0)#mq要多unsqueeze一次
             refer = get_spepc(hps, ref_wav_path)#.to(device)
             if(is_half==True):refer=refer.half().to(device)
             else:refer=refer.to(device)
-            # audio = vq_model.decode(pred_semantic, all_phoneme_ids, refer).detach().cpu().numpy()[0, 0]
-            audio = vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refer).detach().cpu().numpy()[0, 0]###试试重建不带上prompt部分
             audio_opt.append(audio)
             audio_opt.append(zero_wav)
             t4 = ttime()
@@ -201,7 +196,7 @@ def create_tts_fn(vq_model, ssl_model, t2s_model, hps, config, hz, max_sec):
     return tts_fn
-splits={"，","。","？","！",",",".","?","!","~",":","：","—","…",}#不考虑省略号
 def split(todo_text):
     todo_text = todo_text.replace("……", "。").replace("——", "，")
     if (todo_text[-1] not in splits): todo_text += "。"
@@ -209,7 +204,7 @@ def split(todo_text):
     len_text = len(todo_text)
     todo_texts = []
     while (1):
-        if (i_split_head >= len_text): break  # 结尾一定有标点，所以直接跳出即可，最后一段在上次已加入
         if (todo_text[i_split_head] in splits):
             i_split_head += 1
             todo_texts.append(todo_text[i_split_tail:i_split_head])
@@ -289,8 +284,8 @@ for speaker in models_info:
     sovits_weight = speaker_info["sovits_weight"]
     gpt_weight = speaker_info["gpt_weight"]
     model_id = "None1145/GPT-SoVITS-Base"
-    # vq_model, ssl_model, t2s_model, hps, config, hz, max_sec = load_model(sovits_weight, gpt_weight)
-    vq_model, ssl_model, t2s_model, hps, config, hz, max_sec = load_model(sovits_weight, f"./PretrainedModels/{model_id}/GPT.ckpt")
     models.append(
         (
             speaker,

     vq_model.load_state_dict(dict_s2["weight"], strict=False)
     hz = 50
     max_sec = config['data']['max_sec']
     t2s_model = Text2SemanticLightningModule(config, "ojbk", is_train=False)
     t2s_model.load_state_dict(dict_s1["weight"])
     if (is_half == True): t2s_model = t2s_model.half()
         if len(text) > 50:
             return f"Error: Text is too long, ({len(text)}>50)", None
         with torch.no_grad():
+            wav16k, sr = librosa.load(ref_wav_path, sr=16000)
             wav16k = torch.from_numpy(wav16k)
             if(is_half==True):wav16k=wav16k.half().to(device)
             else:wav16k=wav16k.to(device)
+            ssl_content = ssl_model.model(wav16k.unsqueeze(0))["last_hidden_state"].transpose(1, 2)
             codes = vq_model.extract_latent(ssl_content)
             prompt_semantic = codes[0, 0]
         t1 = ttime()
             prompt = prompt_semantic.unsqueeze(0).to(device)
             t2 = ttime()
             with torch.no_grad():
                 pred_semantic,idx = t2s_model.model.infer_panel(
                     all_phoneme_ids,
                     all_phoneme_len,
                     prompt,
                     bert,
                     top_k=config['inference']['top_k'],
                     early_stop_num=hz * max_sec)
             t3 = ttime()
+            pred_semantic = pred_semantic[:,-idx:].unsqueeze(0)
             refer = get_spepc(hps, ref_wav_path)#.to(device)
             if(is_half==True):refer=refer.half().to(device)
             else:refer=refer.to(device)
+            audio = vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refer).detach().cpu().numpy()[0, 0]
             audio_opt.append(audio)
             audio_opt.append(zero_wav)
             t4 = ttime()
     return tts_fn
+splits={"，","。","？","！",",",".","?","!","~",":","：","—","…",}
 def split(todo_text):
     todo_text = todo_text.replace("……", "。").replace("——", "，")
     if (todo_text[-1] not in splits): todo_text += "。"
     len_text = len(todo_text)
     todo_texts = []
     while (1):
+        if (i_split_head >= len_text): break
         if (todo_text[i_split_head] in splits):
             i_split_head += 1
             todo_texts.append(todo_text[i_split_tail:i_split_head])
     sovits_weight = speaker_info["sovits_weight"]
     gpt_weight = speaker_info["gpt_weight"]
     model_id = "None1145/GPT-SoVITS-Base"
+    vq_model, ssl_model, t2s_model, hps, config, hz, max_sec = load_model(sovits_weight, gpt_weight)
+    # vq_model, ssl_model, t2s_model, hps, config, hz, max_sec = load_model(sovits_weight, f"./PretrainedModels/{model_id}/GPT.ckpt")
     models.append(
         (
             speaker,