metadata

license: other
tags:
  - stable-diffusion
  - text-to-image

Cool Japan Diffusion for learning 2.0 Model Card

注意事项。从2023年1月10日起，中国将对图像生成的人工智能实施法律限制。

2023年1月10日以降、中国国内では画像生成AIへの法的規制がかかります。注意してください。

After January 10, 2023, image-generating AI will be legal restrictions in China.

このモデルは主に日本人に向けて公開されたモデルです。このため、ドキュメントは主に日本語で書かれています。日本内での同意が得られた後に、海外向けに英語で翻訳します。予めご了承ください。

This model is released for Japanese people mainly. Therefore, the documents of the model are written in Japanese. The documents will be translated into English for the foreign countries after I obtain the consensus from Japanese people. Thank you for your cooperations.

はじめに

学習用Cool Japan DiffusionはStable Dissuionをファインチューニングして、イラスト用に特化したモデルです。本来は、Cool Japan Diffusionという拡散モデルを学習させるために作られました。ただし、今回、諸事情により、緊急で提供することにしました。なお、内閣府のクールジャパン戦略とは特に関係はありません。

ライセンスについて

ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に商用利用禁止を追加しただけです。商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。ちなみに、元のライセンスの日本語訳はこちらになります。営利企業にいる方は法務部にいる人と相談してください。趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。

以下、一般的なモデルカードの日本語訳です。

モデル詳細

開発者: Robin Rombach, Patrick Esser, Alfred Increment
モデルタイプ: 拡散モデルベースの text-to-image 生成モデル
言語: 日本語
ライセンス: CreativeML Open RAIL++-M-NC License
モデルの説明: このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。
補足:

参考文献:

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

モデルの使用例

Stable Diffusion v2と同じ使い方です。たくさんの方法がありますが、２つのパターンを提供します。

Web UI
Diffusers

Web UIの場合

こちらの記事に従って作成してください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionPipeline
import torch

model_id = "alfredplpl/cool-japan-diffusion-for-learning-2-0"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "anime, a beautuful girl with black hair and red eyes, kimono, 4k, detailed"
image = pipe(prompt, height=512, width=512).images[0]

image.save("girl.png")

注意:

xformers を使うと早くなるらしいです。
GPUを使う際にGPUのメモリが少ない人は pipe.enable_attention_slicing() を使ってください。

想定される用途

コンテスト
- AIアートグランプリへの投稿
  - ファインチューニングに用いた全データを開示し、審査基準を満たしていることを判断してもらうようにします。また、事前に申請して、確認を取るようにします。
  - コンテストに向けて、要望があれば、Hugging Face の Community などで私に伝えてください。
画像生成AIに関する報道
- 公共放送だけでなく、営利企業でも可能
  - 画像合成AIに関する情報を「知る権利」は創作業界に悪影響を及ぼさないと判断したためです。また、報道の自由などを尊重しました。
クールジャパンの紹介
- 他国の人にクールジャパンとはなにかを説明すること。
  - 他国の留学生はクールジャパンに惹かれて日本に来ることがおおくあります。そこで、クールジャパンが日本では「クールでない」とされていることにがっかりされることがとても多いとAlfred Incrementは感じております。他国の人が憧れる自国の文化をもっと誇りに思ってください。
研究開発
- Discord上でのモデルの利用
  - プロンプトエンジニアリング
  - ファインチューニング（追加学習とも）
    - DreamBooth など
  - 他のモデルとのマージ
- Latent Diffusion Modelとクールジャパンとの相性
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
自己表現
- SNS上で自分の感情や思考を表現すること
Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください

想定されない用途

物事を事実として表現するようなこと
収益化されているYouTubeなどのコンテンツへの使用
商用のサービスとして直接提供すること
先生を困らせるようなこと
その他、創作業界に悪影響を及ぼすこと

使用してはいけない用途や悪意のある用途

デジタル贋作 (Digital Forgery) は公開しないでください（著作権法に違反するおそれ）
- 特に既存のキャラクターは公開しないでください（著作権法に違反するおそれ）
他人の作品を無断でImage-to-Imageしないでください（著作権法に違反するおそれ）
わいせつ物を頒布しないでください (刑法175条に違反するおそれ）
- いわゆる業界のマナーを守らないようなこと
事実に基づかないことを事実のように語らないようにしてください（威力業務妨害罪が適用されるおそれ）
- フェイクニュース

モデルの限界やバイアス

モデルの限界

よくわかっていない

バイアス

Stable Diffusionと同じバイアスが掛かっています。女性はきれいに出力されるもの、男性はきれいに出力されにくいバイアスがあります。また、出力する人が存在する場所によって人種の偏りが見られることが報告されています。イラストに特化していますが、プロンプトによっては実写のようなものを作ることができることが報告されています。気をつけてください。

学習

学習データ

次のデータを主に使ってStable Diffusionをファインチューニングしています。

Twitterに掲載されたイラストやマンガ: Twitter APIで取得した画像約20万枚

学習プロセス

Stable DiffusionのVAEとU-Netをファインチューニングしました。

ハードウェア: RTX 3090
オプティマイザー: AdamW
Gradient Accumulations: 1
バッチサイズ: 1

評価結果

そのうちやるかもしれません。誰かやってください。

環境への影響

ほとんどありません。

ハードウェアタイプ: RTX 3090
使用時間（単位は時間）: 300
クラウド事業者: なし
学習した場所: 日本
カーボン排出量: そんなにない

参考文献

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

*このモデルカードは Stable Diffusion v2 に基づいて、Alfred Incrementがかきました。