shirayu/sd-tohoku-v2 · Hugging Face

東北ずん子プロジェクトのキャラクターイラストを用いてDreamBoothで学習したモデルです．

itako: 東北イタコ
zunko: 東北ずん子
kiritan: 東北きりたん
zundamon: ずんだもん (人間形態)
metan: 四国めたん
usagi: 中国うさぎ
awamo: 沖縄あわも
shinobi: 関西しのび
hokamel: 北海道めろん
sora: 九州そら
chanko: 大江戸ちゃんこ

学習画像はなるべく衣装にバリエーションをもたせているので，「公式衣装」は出にくいです．

shirayu/sd-tohoku-v1と比べてキャラクターが増え，学習元モデルも変更しています．ただし，以前のモデルより完全に優れているといえるかは不明です．

shirayu/sd-tohoku-v1と比較して，その時々によって使い分けをされることをおすすめします．

また，元モデルのリリースノートのWaifu Diffusion 1.4 Anime Release Notesも参考にしてください．

ファイル形式

AUTOMATIC1111/stable-diffusion-webuiなどckptファイルを読み込むツールの場合

sd-tohoku-v2.model.ckpt(約2.5GB)とsd-tohoku-v2.yamlをダウンロードして読み込んでください

diffusersから利用する場合

from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2")

紹介動画

ライセンス

CreativeML Open RAIL-M license 1.0

また，各種法令・各種ガイドラインにご留意ください．例えば，生成された画像が東北ずん子プロジェクトのキャラクターを含む場合，「東北ずん子プロジェクトキャラクター利用の手引き」に基づいて利用してください．

学習設定

元モデル: Waifu Diffusion 1.4 Anime Epoch 1 (wd-1-4-anime_e1.ckpt)
学習画像
- 11キャラクター計111枚
- アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ
- 正則化画像なし
学習元コード: kohya-ss/sd-scripts (e31177adf3a2524696495e1caf8b188be1d320b6)
学習設定
- Instance ID: itako, zunko, kiritan, zundamon, metan, usagi, awamo, shinobi, hokamel, sora, chanko (11種)
- Instance prompt: <ID>, 1girl
- NVIDIA A100で約160分, 600エポック

学習用コマンド

accelerate launch \
    --num_cpu_threads_per_process 12 \
    train_db.py \
    --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \
    --train_data_dir="/content/data/img_train" \
    --reg_data_dir="/content/data/img_reg"  \
    --output_dir="/content/data/output_models" \
    --prior_loss_weight=1.0  \
    --resolution="448,640"  \
    --train_batch_size="4" \
    --learning_rate="1e-6"  \
    --max_train_steps="8400"  \
    --use_8bit_adam  \
    --cache_latents \
    --v2 \
    --logging_dir="/content/data/logs" \
    --save_every_n_epochs "10" \
    --save_last_n_epochs "1" \
    --save_state \
    --mixed_precision='fp16'

後半300エポックは--output_dirを変え，--resume /content/data/output_models/last-stateで再開．

学習に使った画像

生成例

masterpiece, best quality, chanko, 1girl, white dress, sing on a stage, hold a microphone
Negative prompt: out of frame, armature drawing, mutated hands and fingers, poor drawing, amateur, bad painting, bad painting of arms, bad anatomy, mutation, extra limbs, ugly, fat
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7.5, Seed: 4103437300, Size: 512x704, Model hash: c6343649

sora, skirt, reading a book in room, smile, masterpiece, best quality, high quality, absurdres, Anime key visual
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 55, Sampler: Euler a, CFG scale: 7.5, Seed: 4198993211, Size: 512x640, Model hash: c6343649

usagi,  1girl, miko in shrine, cleaning by holding a broom, standing, masterpiece, best quality, high quality, absurdres, Anime key visual
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7.5, Seed: 347036291, Size: 896x704, Model hash: c6343649

awamo, 1girl, summer, mountain, jumping, masterpiece, best quality, high quality, absurdres, Anime key visual, blue hair
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 38, Sampler: DPM++ SDE Karras, CFG scale: 7.5, Seed: 1779198846, Size: 640x896, Model hash: c6343649