Text-to-Image
Diffusers
Safetensors
StableDiffusionXLPipeline
stable-diffusion
File size: 8,408 Bytes
145d65c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c627548
145d65c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
---
license: openrail++
tags:
- stable-diffusion
- text-to-image
inference: false
library_name: diffusers
---

# Emi 2.5 Model Card

![eyecatch.jpg](eyecatch.jpg)

# はじめに
Emi 2.5 (Ethereal master of illustration 2.5) は、
最先端の開発機材H100を用いた画像生成Emiを用いて
AI Picasso社が開発したAIアートに特化した画像生成AIです。
このモデルの特徴として、Danbooruなどにある無断転載画像を学習していないことがあげられます。

# 使い方
[ここ](https://huggingface.co/spaces/aipicasso/emi-2-demo)からデモを利用することができます。
本格的に利用する人は[ここ](emi-2-5.safetensors)からモデルをダウンロードできます。

# モデルの出力向上について
- 使えるプロンプトはWaifu Diffusionと同じです。また、Stable Diffusionのように使うこともできます。
- 解像度を上げるためには、[ComfyUIのノード](https://github.com/Ttl/ComfyUi_NNLatentUpscale)を使ってください。
- ネガティブプロンプトに[Textual Inversion](https://civitai.com/models/119032/unaestheticxl-or-negative-ti)を使用することをおすすめします。
- 手が不安定なため、[Concept Slider Fix hands](https://github.com/rohitgandikota/sliders)を使用することをおすすめします。
- ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
- 最新のComfyUIにあるFreeUノード、または[Web UIの拡張機能](https://github.com/ljleb/sd-webui-freeu)を次のパラメータで使うとさらに出力が上がる可能性があります。
	- s1=1.2, s2=0.7, b1=1.1, b2=1.3

# 法律について
本モデルは日本にて作成されました。したがって、日本の法律が適用されます。
本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。
また、本モデルの配布については、著作権法や刑法175条に照らしてみても、
正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の[見解](https://twitter.com/tka0120/status/1601483633436393473?s=20&t=yvM9EX0Em-_7lh8NJln3IQ)を御覧ください。
ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

# 連絡先
support@aipicasso.app

以下、一般的なモデルカードの日本語訳です。

## モデル詳細
- **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
- **言語:** 日本語
- **ライセンス:** [CreativeML Open RAIL++-M License](LICENSE.md)
- **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Latent Diffusion Model](https://arxiv.org/abs/2307.01952) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) です。
- **補足:**
- **参考文献:**
```bibtex
@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
```

## モデルの使用例

Stable Diffusion XL 1.0と同じ使い方です。
たくさんの方法がありますが、3つのパターンを提供します。
- ComfyUI
- Fooocus
- Diffusers

### ComfyUIやFooocusの場合

Stable Diffusion XL 1.0 の使い方と同じく、safetensors形式のモデルファイルを使ってください。
詳しいインストール方法は、[こちらの記事](https://note.com/it_navi/n/n723d93bedd64)を参照してください。

### Diffusersの場合

[🤗's Diffusers library](https://github.com/huggingface/diffusers) を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

```bash
pip install invisible_watermark transformers accelerate safetensors diffusers
```

次のスクリプトを実行し、画像を生成してください。

```python
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/emi-2-5"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

prompt = "1girl, upper body, brown bob short hair, brown eyes, looking at viewer, cherry blossom"
images = pipe(prompt, num_inference_steps=20).images
images[0].save("girl.png")

```

複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-2-demo/blob/main/app.py)を参考にしてください。

#### 想定される用途
- イラストや漫画、アニメの作画補助
  - 商用・非商用は問わない
- 依頼の際のクリエイターとのコミュニケーション 
- 画像生成サービスの商用提供
  - 生成物の取り扱いには注意して使ってください。
- 自己表現
    - このAIを使い、「あなた」らしさを発信すること
- 研究開発
    - ファインチューニング(追加学習とも)
        - LoRA など
    - 他のモデルとのマージ
    - 本モデルの性能をFIDなどで調べること
- 教育
    - 美大生や専門学校生の卒業制作
    - 大学生の卒業論文や課題制作
    - 先生が画像生成AIの現状を伝えること
- Hugging Face の Community にかいてある用途
    - 日本語か英語で質問してください

#### 想定されない用途
- 物事を事実として表現するようなこと
- 先生を困らせるようなこと
- その他、創作業界に悪影響を及ぼすこと

# 使用してはいけない用途や悪意のある用途
- マネー・ロンダリングに用いないでください
- デジタル贋作 ([Digital Forgery](https://arxiv.org/abs/2212.03860)) は公開しないでください(著作権法に違反するおそれ)
- 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
- わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
    - いわゆる業界のマナーを守らないようなこと
- 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
    - フェイクニュース

## モデルの限界やバイアス

### モデルの限界

- 人間の手がきれいに生成することが難しいです。

### バイアス

- 日本のイラスト風の画像を生成していることに向いていますが、写真のような画像を生成することには向いていません。

## 学習

**学習データ**

- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
- [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)

**学習プロセス**

- **ハードウェア:** H100, RTX 4090, A6000

## 評価結果

第三者による評価を求めています。

## 環境への影響

- **ハードウェアタイプ:** H100, RTX 4090, A6000
- **使用時間(単位は時間):** 1000
- **学習した場所:** 日本

## 参考文献

```bibtex
@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
```

```bibtex
@article{li2024cosmicman,
  title={CosmicMan: A Text-to-Image Foundation Model for Humans},
  author={Li, Shikai and Fu, Jianglin and Liu, Kaiyuan and Wang, Wentao and Lin, Kwan-Yee and Wu, Wayne},
  journal={arXiv preprint arXiv:2404.01294},
  year={2024}
}

```