Upload 4 files

Browse files

Files changed (4) hide show

all_base.json +62 -0
all_base.onnx +3 -0
all_base_f16.onnx +3 -0
inference_ms_cpu.py +18 -9

all_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 32,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 16,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/all_train.txt.cleaned",
+      "validation_files":"filelists/all_valid.txt.cleaned",
+      "text_cleaners":["canvers_ko_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 66,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

all_base.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2aa95fa4b3cb25f3099ddb437b44d74c702ee150809f9f1fa6d24c5b4858865a
+size 123513875

all_base_f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d44866b44c06e280e792002b87c3e152ec79132c22100f7c63ab1aa2c5853f1
+size 62511742

inference_ms_cpu.py CHANGED Viewed

@@ -19,15 +19,23 @@ def get_text(text, hps):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-LANG = 'ru'
 CONFIG_PATH = f"./configs/{LANG}_base.json"
-MODEL_PATH = f"./logs/{LANG}_base/G_40000.pth"
-#TEXT = "I am artificial intelligent voice made by circulus."
-#TEXT = "저는 서큘러스의 AI Voice 모델입니다. 오늘도 즐거운하루 보내세요."
-TEXT = "привет. Я президент Путин, и мне нравятся советские лидеры Сталин и Ленин."
-#TEXT = "Xin chào. Tôi là Tổng thống Putin và tôi thích các nhà lãnh đạo Liên Xô Stalin và Lenin."
-#TEXT = "สวัสดี. ผมเป็นประธานาธิบดีปูติน และผมชอบผู้นำโซเวียตอย่างสตาลินและเลนิน"
-#TEXT = "Halo. Saya Presiden Putin, dan saya menyukai pemimpin Soviet Stalin dan Lenin."
 hps = utils.get_hparams_from_file(CONFIG_PATH)
@@ -54,6 +62,7 @@ _ = net_g.eval()
 _ = utils.load_checkpoint(MODEL_PATH, net_g, None)
 stn_tst = get_text(TEXT, hps)
 with torch.no_grad():
@@ -77,4 +86,4 @@ with torch.no_grad():
             .numpy()
         )
         print(i, time.time() - start)
-        write(data=audio, rate=hps.data.sampling_rate, filename=f"test_{LANG}_{i}.wav")

     text_norm = torch.LongTensor(text_norm)
     return text_norm
+LANG = 'all'
 CONFIG_PATH = f"./configs/{LANG}_base.json"
+MODEL_PATH = f"./logs/{LANG}_base/G_250000.pth"
+#TEXT = "こんにちは。韓国のロボットを見に日本からここまで来てくれたのに苦労しました。日本語も上手ですか？"
+#TEXT = "Ciao. È una giornata davvero calda. piacere di conoscerti"
+#CONFIG_PATH = f"./configs/{LANG}_base.json"
+#MODEL_PATH = f"./logs/{LANG}_base/G_210000.pth"
+#TEXT = "안녕하세요. 저는 서큘러스의 인공지능 파이온 입니다. 앞으로 로봇시대를 이끌어 나가도록 하겠습니다!"
+#TEXT= "你好。 我是 Pion，Circulus 的人工智能。让我们引领未来机器人时代！"
+TEXT = "I am artificial intelligent voice made by circulus. It is the way."
+#TEXT = f"Hola. encantado de conocerlo ¿Qué estás haciendo?"
+#TEXT = "नमस्ते। मेरा नाम पिबो है, सर्कुलस का रोबोट। आपसे मिलकर अच्छा लगा"
+#SPK_ID = 45
+#SPK_ID = 20
+#OUTPUT_WAV_PATH = "vits_test"
 hps = utils.get_hparams_from_file(CONFIG_PATH)
 _ = utils.load_checkpoint(MODEL_PATH, net_g, None)
+hps.data.text_cleaners = ["canvers_en_cleaners"]
 stn_tst = get_text(TEXT, hps)
 with torch.no_grad():
             .numpy()
         )
         print(i, time.time() - start)
+        write(data=audio, rate=hps.data.sampling_rate, filename=f"t_{LANG}_{i}.wav")