metadata

language:
  - ja
base_model:
  - parler-tts/parler-tts-mini-v1
  - retrieva-jp/t5-base-long
datasets:
  - ylacombe/libritts_r_filtered
  - ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents
pipeline_tag: text-to-audio
library_name: transformers
tags:
  - text-to-speech
  - annotation
  - japanese

Japanese Parler-TTS Mini (β版)

このリポジトリは、parler-tts/parler-tts-mini-v1を基に、日本語でのテキスト読み上げを可能にするよう再学習したモデルを公開しています。本モデルは、軽量でありながら高品質な音声生成を提供します。

注意: 本家のParler-TTSで使用されているtokenizerとは互換性がありません。本モデル用に独自のtokenizerが採用されています。

現在このリポジトリはβ版です。機能やモデルの最適化は正式リリースに向けて進行中です。

正式リリース版のURL: 準備中

Japanese Parler-TTS Index

🛠️ 使用方法

👨‍💻 インストール

以下のコマンドでインストールできます。

pip install git+https://github.com/huggingface/parler-tts.git
pip install git+https://github.com/getuka/RubyInserter.git

🎲 ランダムな音声での使用方法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("2121-8/japanese-parler-tts-mini-bate").to(device)
tokenizer = AutoTokenizer.from_pretrained("2121-8/japanese-parler-tts-mini-bate")

prompt = "こんにちは、今日はどのようにお過ごしですか？"
description = "A female speaker with a slightly high-pitched voice delivers her words at a moderate speed with a quite monotone tone in a confined environment, resulting in a quite clear audio recording."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_japanese_out.wav", audio_arr, model.config.sampling_rate)

サンプル音声

🎯 特定の話者を指定する方法

準備中