File size: 8,396 Bytes

---
license: other
tags:
  - stable-diffusion
  - text-to-image
---

# Cool Japan Diffusion for learning 2.0 Model Card

![アイキャッチ](eyecatch.png)

このモデルは主に日本人に向けて公開されたモデルです。
このため、ドキュメントは主に日本語で書かれています。
日本内での同意が得られた後に、海外向けに英語で翻訳します。
予めご了承ください。

This model is released for Japanese people mainly.
Therefore, the documents of the model are written in Japanese.
The documents will be translated into English for the foreign countries after I obtain the consensus from Japanese people.
Thank you for your cooperations.

# はじめに
学習用Cool Japan DiffusionはStable Dissuionをファインチューニングして、イラスト用に特化したモデルです。本来は、Cool Japan Diffusionという拡散モデルを学習させるために作られました。ただし、今回、諸事情により、緊急で提供することにしました。なお、内閣府のクールジャパン戦略とは特に関係はありません。

# ライセンスについて
ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に商用利用禁止を追加しただけです。
商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。
この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。
ちなみに、元のライセンスの日本語訳は[こちら](https://qiita.com/robitan/items/887d9f3153963114823d)になります。 
営利企業にいる方は法務部にいる人と相談してください。
趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。
なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。

以下、一般的なモデルカードの日本語訳です。

## モデル詳細
- **開発者:** Robin Rombach, Patrick Esser, Alfred Increment
- **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
- **言語:** 日本語
- **ライセンス:** CreativeML Open RAIL++-M-NC License
- **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Latent Diffusion Model](https://arxiv.org/abs/2112.10752) と [OpenCLIP-ViT/H](https://github.com/mlfoundations/open_clip) です。
- **補足:**
- **参考文献:**

      @InProceedings{Rombach_2022_CVPR,
          author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
          title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
          booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
          month     = {June},
          year      = {2022},
          pages     = {10684-10695}
      }

## モデルの使用例
Stable Diffusion v2と同じ使い方です。[🤗's Diffusers library](https://github.com/huggingface/diffusers) を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

```bash
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
```

次のスクリプトを実行し、画像を生成してください。

```python
from diffusers import StableDiffusionPipeline
import torch

model_id = "alfredplpl/cool-japan-diffusion-for-learning-2-0"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "anime, a beautuful girl with black hair and black eyes, kimono, 4k, detailed"
image = pipe(prompt, height=512, width=512).images[0]

image.save("girl.png")
```

ただ、普通のStable Diffusionと同じように使えるため、Web UIなどを使ったほうが楽な気がします。

**注意**:
- [xformers](https://github.com/facebookresearch/xformers) を使うと早くなるらしいです。
- GPUを使う際にGPUのメモリが少ない人は `pipe.enable_attention_slicing()` を使ってください。

#### 想定される用途
- クールジャパンの紹介
    - 他国の人にクールジャパンとはなにかを説明すること。
        - 他国の留学生はクールジャパンに惹かれて日本に来ることがおおくあります。そこで、クールジャパンが日本では「クールでない」とされていることにがっかりされることがとても多いとAlfred Incrementは感じております。他国の人が憧れる自国の文化をもっと誇りに思ってください。
- 研究開発
    - Discord上でのモデルの利用
        - プロンプトエンジニアリング
        - ファインチューニング（追加学習とも）
            - DreamBooth など
        - 他のモデルとのマージ
    - Latent Diffusion Modelとクールジャパンとの相性
    - 本モデルの性能をFIDなどでしらべること
- 教育
    - 美大生や専門学校生の卒業制作
    - 大学生の卒業論文や課題制作
    - 先生が画像生成AIの現状を伝えること
- 自己表現
    - SNS上で自分の感情や思考を表現すること
- Hugging Face の Community にかいてある用途
    - 日本語か英語で質問してください

#### 想定されない用途
- 物事を事実として表現するようなこと
- 収益化されているYouTubeなどのコンテンツへの使用
- 商用のサービスとして直接提供すること
- 先生を困らせるようなこと
- その他、創作業界に悪影響を及ぼすこと

# 使用してはいけない用途や悪意のある用途
- デジタル贋作 ([Digital Forgery](https://arxiv.org/abs/2212.03860)) は公開しないでください（著作権法に違反するおそれ）
    - 特に既存のキャラクターは公開しないでください（著作権法に違反するおそれ）
- 他人の作品を無断でImage-to-Imageしないでください（著作権法に違反するおそれ）
- わいせつ物を頒布しないでください (刑法175条に違反するおそれ）
    - いわゆる業界のマナーを守らないようなこと
- 事実に基づかないことを事実のように語らないようにしてください（威力業務妨害罪が適用されるおそれ）
    - フェイクニュース

## モデルの限界やバイアス

### モデルの限界

- イラストしかかけません。実写にはなりません。

### バイアス

Stable Diffusionと同じバイアスが掛かっています。
気をつけてください。

## 学習

**学習データ**

次のデータを主に使ってStable Diffusionをファインチューニングしています。

- Twitterに掲載されたイラストやマンガ: Twitter APIで取得した画像約20万枚

**学習プロセス**
Stable DiffusionのVAEとU-Netをファインチューニングしました。

- **ハードウェア:** RTX 3090
- **オプティマイザー:** AdamW
- **Gradient Accumulations**: 1
- **バッチサイズ:** 1

## 評価結果

そのうちやるかもしれません。
誰かやってください。

## 環境への影響

ほとんどありません。

- **ハードウェアタイプ:** RTX 3090
- **使用時間（単位は時間）:** 300
- **クラウド事業者:** なし
- **学習した場所:** 日本
- **カーボン排出量:** そんなにない

## 参考文献
    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }

*このモデルカードは [Stable Diffusion v2](https://huggingface.co/stabilityai/stable-diffusion-2/raw/main/README.md) に基づいて、Alfred Incrementがかきました。