Text-to-Image
Diffusers
Safetensors
StableDiffusionXLPipeline
stable-diffusion
alfredplpl commited on
Commit
145d65c
·
verified ·
1 Parent(s): 5e038bf

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +220 -3
README.md CHANGED
@@ -1,3 +1,220 @@
1
- ---
2
- license: openrail++
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: openrail++
3
+ tags:
4
+ - stable-diffusion
5
+ - text-to-image
6
+ inference: false
7
+ library_name: diffusers
8
+ ---
9
+
10
+ # Emi 2.5 Model Card
11
+
12
+ ![eyecatch.jpg](eyecatch.jpg)
13
+
14
+ # はじめに
15
+ Emi 2.5 (Ethereal master of illustration 2.5) は、
16
+ 最先端の開発機材H100を用いた画像生成Emiを用いて
17
+ AI Picasso社が開発したAIアートに特化した画像生成AIです。
18
+ このモデルの特徴として、Danbooruなどにある無断転載画像を学習していないことがあげられます。
19
+
20
+ # 使い方
21
+ [ここ](https://huggingface.co/spaces/aipicasso/emi-2-demo)からデモを利用することができます。
22
+ 本格的に利用する人は[ここ](emi-2-5.safetensors)からモデルをダウンロードできます。
23
+
24
+ # シンプルな作品例
25
+
26
+ ![example_1.jpg](example_1.jpg)
27
+
28
+ ```
29
+ positive prompt: 1girl, close-up, brown bob short hair, brown eyes, smile:0.1, looking at viewer, cherry blossom
30
+ negative prompt: (embedding:unaestheticXLv31:0.5)
31
+ ```
32
+
33
+ ![example_2.png](example_2.png)
34
+
35
+ ```
36
+ positive prompt: monochrome, black and white, (japanese manga), mount fuji
37
+ negative prompt: (embedding:unaestheticXLv31:0.5)
38
+ ```
39
+
40
+ ![example_3.jpg](example_3.jpg)
41
+ ```
42
+ positive prompt: 1boy, face, silver very short hair, red eyes, smile:0.1, looking at viewer, white background
43
+ negative prompt: (embedding:unaestheticXLv31:0.5)
44
+ ```
45
+
46
+ ![example_4.jpg](example_4.jpg)
47
+ ```
48
+ positive prompt: 1girl standing on an abandoned ruin, brown long hair, brown eyes, full body, from front
49
+ negative prompt: (embedding:unaestheticXLv31:0.5), bad hand, bad anatomy, low quality
50
+ ```
51
+
52
+ # モデルの出力向上について
53
+ - 使えるプロンプトはWaifu Diffusionと同じです。また、Stable Diffusionのように使うこともできます。
54
+ - ネガティブプロンプトに[Textual Inversion](https://civitai.com/models/119032/unaestheticxl-or-negative-ti)を使用することをおすすめします。
55
+ - 手が不安定なため、[Concept Slider Fix hands](https://github.com/rohitgandikota/sliders)を使用することをおすすめします。
56
+ - ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
57
+ - 最新のComfyUIにあるFreeUノード、または[Web UIの拡張機能](https://github.com/ljleb/sd-webui-freeu)を次のパラメータで使うとさらに出力が上がる可能性があります。
58
+ - s1=1.2, s2=0.7, b1=1.1, b2=1.3
59
+
60
+ # 法律について
61
+ 本モデルは日本にて作成されました。したがって、日本の法律が適用されます。
62
+ 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。
63
+ また、本モデルの配布については、著作権法や刑法175条に照らしてみても、
64
+ 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の[見解](https://twitter.com/tka0120/status/1601483633436393473?s=20&t=yvM9EX0Em-_7lh8NJln3IQ)を御覧ください。
65
+ ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。
66
+
67
+ # 連絡先
68
+ support@aipicasso.app
69
+
70
+ 以下、一般的なモデルカードの日本語訳です。
71
+
72
+ ## モデル詳細
73
+ - **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
74
+ - **言語:** 日本語
75
+ - **ライセンス:** [CreativeML Open RAIL++-M License](LICENSE.md)
76
+ - **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Latent Diffusion Model](https://arxiv.org/abs/2307.01952) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) です。
77
+ - **補足:**
78
+ - **参考文献:**
79
+ ```bibtex
80
+ @misc{podell2023sdxl,
81
+ title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
82
+ author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
83
+ year={2023},
84
+ eprint={2307.01952},
85
+ archivePrefix={arXiv},
86
+ primaryClass={cs.CV}
87
+ }
88
+ ```
89
+
90
+ ## モデルの使用例
91
+
92
+ Stable Diffusion XL 1.0と同じ使い方です。
93
+ たくさんの方法がありますが、3つのパターンを提供します。
94
+ - ComfyUI
95
+ - Fooocus
96
+ - Diffusers
97
+
98
+ ### ComfyUIやFooocusの場合
99
+
100
+ Stable Diffusion XL 1.0 の使い方と同じく、safetensors形式のモデルファイルを使ってください。
101
+ 詳しいインストール方法は、[こちらの記事](https://note.com/it_navi/n/n723d93bedd64)を参照してください。
102
+
103
+ ### Diffusersの場合
104
+
105
+ [🤗's Diffusers library](https://github.com/huggingface/diffusers) を使ってください。
106
+
107
+ まずは、以下のスクリプトを実行し、ライブラリをいれてください。
108
+
109
+ ```bash
110
+ pip install invisible_watermark transformers accelerate safetensors diffusers
111
+ ```
112
+
113
+ 次のスクリプトを実行し、画���を生成してください。
114
+
115
+ ```python
116
+ from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
117
+ import torch
118
+
119
+ model_id = "aipicasso/emi-2-5"
120
+
121
+ scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
122
+ pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
123
+ pipe = pipe.to("cuda")
124
+
125
+ prompt = "1girl, upper body, brown bob short hair, brown eyes, looking at viewer, cherry blossom"
126
+ images = pipe(prompt, num_inference_steps=20).images
127
+ images[0].save("girl.png")
128
+
129
+ ```
130
+
131
+ 複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-2-demo/blob/main/app.py)を参考にしてください。
132
+
133
+ #### 想定される用途
134
+ - イラストや漫画、アニメの作画補助
135
+ - 商用・非商用は問わない
136
+ - 依頼の際のクリエイターとのコミュニケーション
137
+ - 画像生成サービスの商用提供
138
+ - 生成物の取り扱いには注意して使ってください。
139
+ - 自己表現
140
+ - このAIを使い、「あなた」らしさを発信すること
141
+ - 研究開発
142
+ - ファインチューニング(追加学習とも)
143
+ - LoRA など
144
+ - 他のモデルとのマージ
145
+ - 本モデルの性能をFIDなどで調べること
146
+ - 教育
147
+ - 美大生や専門学校生の卒業制作
148
+ - 大学生の卒業論文や課題制作
149
+ - 先生が画像生成AIの現状を伝えること
150
+ - Hugging Face の Community にかいてある用途
151
+ - 日本語か英語で質問してください
152
+
153
+ #### 想定されない用途
154
+ - 物事を事実として表現するようなこと
155
+ - 先生を困らせるようなこと
156
+ - その他、創作業界に悪影響を及ぼすこと
157
+
158
+ # 使用してはいけない用途や悪意のある用途
159
+ - マネー・ロンダリングに用いないでください
160
+ - デジタル贋作 ([Digital Forgery](https://arxiv.org/abs/2212.03860)) は公開しないでください(著作権法に違反するおそれ)
161
+ - 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
162
+ - わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
163
+ - いわゆる業界のマナーを守らないようなこと
164
+ - 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
165
+ - フェイクニュース
166
+
167
+ ## モデルの限界やバイアス
168
+
169
+ ### モデルの限界
170
+
171
+ - 人間の手がきれいに生成することが難しいです。
172
+
173
+ ### バイアス
174
+
175
+ - 日本のイラスト風の画像を生成していることに向いていますが、写真のような画像を生成することには向いていません。
176
+
177
+ ## 学習
178
+
179
+ **学習データ**
180
+
181
+ - Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
182
+ - Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
183
+ - [CosmicMan-SDXL](https://huggingface.co/cosmicman/CosmicMan-SDXL)
184
+
185
+ **学習プロセス**
186
+
187
+ - **ハードウェア:** H100, RTX 4090, A6000
188
+
189
+ ## 評価結果
190
+
191
+ 第三者による評価を求めています。
192
+
193
+ ## 環境への影響
194
+
195
+ - **ハードウェアタイプ:** H100, RTX 4090, A6000
196
+ - **使用時間(単位は時間):** 1000
197
+ - **学習した場所:** 日本
198
+
199
+ ## 参考文献
200
+
201
+ ```bibtex
202
+ @misc{podell2023sdxl,
203
+ title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
204
+ author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
205
+ year={2023},
206
+ eprint={2307.01952},
207
+ archivePrefix={arXiv},
208
+ primaryClass={cs.CV}
209
+ }
210
+ ```
211
+
212
+ ```bibtex
213
+ @article{li2024cosmicman,
214
+ title={CosmicMan: A Text-to-Image Foundation Model for Humans},
215
+ author={Li, Shikai and Fu, Jianglin and Liu, Kaiyuan and Wang, Wentao and Lin, Kwan-Yee and Wu, Wayne},
216
+ journal={arXiv preprint arXiv:2404.01294},
217
+ year={2024}
218
+ }
219
+
220
+ ```