YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
Style-Bert-VITS2 あみたろモデル
- あみたろの声素材工房のあみたろのライブ配信音声で公開されているライブ配信音声を利用して学習した、Style-Bert-VITS2のモデルです(ver 2.5.0で学習)
- あみたろ様には事前に許可を得て学習して、公開の許可も頂いております
- スタイルは次の配布時のシリーズ01 ~ 04に応じた4スタイルです
注: このモデルはlitagin個人が提供するものであり、あみたろの声素材工房公式・あみたろ様本人によって学習されたモデルではありません。
利用規約
あみたろの声素材工房様の規約 と あみたろのライブ配信音声・利用規約 を全て守らなければなりません。特に、以下の事項を遵守してください(規約を守れば商用非商用問わず利用できます)。
禁止事項
- 年齢制限のある作品・用途への使用
- 新興宗教・政治・マルチ購などに深く関係する作品・用途
- 特定の団体や個人や国家を誹謗中傷する作品・用途
- 生成された音声を、あみたろ本人の声として扱うこと
- 生成された音声を、あみたろ以外の人の声として扱うこと
クレジット表記
生成音声を公開する際は(媒体は問わない)、必ず分かりやすい場所に あみたろの声素材工房 (https://amitaro.net/)
を含むクレジット表記を記載してください。
クレジット表記例:
Style-BertVITS2モデル: あみたろ、あみたろの声素材工房 (https://amitaro.net/)
モデルマージ
モデルマージに関しては、あみたろの声素材工房のよくある質問への回答を遵守してください:
- 本モデルを別モデルとマージできるのは、その別モデル作成の際に学習に使われた声の権利者が許諾している場合に限る
- あみたろの声の特徴が残っている場合(マージの割合が25%以上の場合)は、その利用はあみたろの声素材工房様の規約の範囲内に限定され、そのモデルに関してもこの規約が適応される
学習詳細
- 学習元はあみたろのライブ配信音声にて配布されている音声ファイル
- SBV2の内蔵のスライス・書き起こしツールでデータセットを作成(手動ノイズ除去や書き起こし修正はしていません)
- 合計約1万ファイル18時間程度
- 配信音声のうち01シリーズがかなりの割合をしめ、疑問文やつぶやき多めのため、影響を少し抑えるため、最初の50kステップ程度までは01-04で、その後は01を除いた02-04のファイルで学習
- バッチサイズ4にて100エポック161kステップまで学習し、そこからよさそうな46エポック87kステップを選択