Text-to-Image
Diffusers
Safetensors
StableDiffusionXLPipeline
stable-diffusion
emi-2-5 / README.md
alfredplpl's picture
Update README.md
c627548 verified
metadata
license: openrail++
tags:
  - stable-diffusion
  - text-to-image
inference: false
library_name: diffusers

Emi 2.5 Model Card

eyecatch.jpg

はじめに

Emi 2.5 (Ethereal master of illustration 2.5) は、 最先端の開発機材H100を用いた画像生成Emiを用いて AI Picasso社が開発したAIアートに特化した画像生成AIです。 このモデルの特徴として、Danbooruなどにある無断転載画像を学習していないことがあげられます。

使い方

ここからデモを利用することができます。 本格的に利用する人はここからモデルをダウンロードできます。

モデルの出力向上について

  • 使えるプロンプトはWaifu Diffusionと同じです。また、Stable Diffusionのように使うこともできます。
  • 解像度を上げるためには、ComfyUIのノードを使ってください。
  • ネガティブプロンプトにTextual Inversionを使用することをおすすめします。
  • 手が不安定なため、Concept Slider Fix handsを使用することをおすすめします。
  • ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
  • 最新のComfyUIにあるFreeUノード、またはWeb UIの拡張機能を次のパラメータで使うとさらに出力が上がる可能性があります。
    • s1=1.2, s2=0.7, b1=1.1, b2=1.3

法律について

本モデルは日本にて作成されました。したがって、日本の法律が適用されます。 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。 また、本モデルの配布については、著作権法や刑法175条に照らしてみても、 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。 ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

連絡先

support@aipicasso.app

以下、一般的なモデルカードの日本語訳です。

モデル詳細

  • モデルタイプ: 拡散モデルベースの text-to-image 生成モデル
  • 言語: 日本語
  • ライセンス: CreativeML Open RAIL++-M License
  • モデルの説明: このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion ModelOpenCLIP-ViT/GCLIP-L です。
  • 補足:
  • 参考文献:
@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

モデルの使用例

Stable Diffusion XL 1.0と同じ使い方です。 たくさんの方法がありますが、3つのパターンを提供します。

  • ComfyUI
  • Fooocus
  • Diffusers

ComfyUIやFooocusの場合

Stable Diffusion XL 1.0 の使い方と同じく、safetensors形式のモデルファイルを使ってください。 詳しいインストール方法は、こちらの記事を参照してください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install invisible_watermark transformers accelerate safetensors diffusers

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/emi-2-5"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

prompt = "1girl, upper body, brown bob short hair, brown eyes, looking at viewer, cherry blossom"
images = pipe(prompt, num_inference_steps=20).images
images[0].save("girl.png")

複雑な操作はデモのソースコードを参考にしてください。

想定される用途

  • イラストや漫画、アニメの作画補助
    • 商用・非商用は問わない
  • 依頼の際のクリエイターとのコミュニケーション
  • 画像生成サービスの商用提供
    • 生成物の取り扱いには注意して使ってください。
  • 自己表現
    • このAIを使い、「あなた」らしさを発信すること
  • 研究開発
    • ファインチューニング(追加学習とも)
      • LoRA など
    • 他のモデルとのマージ
    • 本モデルの性能をFIDなどで調べること
  • 教育
    • 美大生や専門学校生の卒業制作
    • 大学生の卒業論文や課題制作
    • 先生が画像生成AIの現状を伝えること
  • Hugging Face の Community にかいてある用途
    • 日本語か英語で質問してください

想定されない用途

  • 物事を事実として表現するようなこと
  • 先生を困らせるようなこと
  • その他、創作業界に悪影響を及ぼすこと

使用してはいけない用途や悪意のある用途

  • マネー・ロンダリングに用いないでください
  • デジタル贋作 (Digital Forgery) は公開しないでください(著作権法に違反するおそれ)
  • 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
  • わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
    • いわゆる業界のマナーを守らないようなこと
  • 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
    • フェイクニュース

モデルの限界やバイアス

モデルの限界

  • 人間の手がきれいに生成することが難しいです。

バイアス

  • 日本のイラスト風の画像を生成していることに向いていますが、写真のような画像を生成することには向いていません。

学習

学習データ

  • Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
  • Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
  • CosmicMan-SDXL

学習プロセス

  • ハードウェア: H100, RTX 4090, A6000

評価結果

第三者による評価を求めています。

環境への影響

  • ハードウェアタイプ: H100, RTX 4090, A6000
  • 使用時間(単位は時間): 1000
  • 学習した場所: 日本

参考文献

@misc{podell2023sdxl,
      title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis}, 
      author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
      year={2023},
      eprint={2307.01952},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
@article{li2024cosmicman,
  title={CosmicMan: A Text-to-Image Foundation Model for Humans},
  author={Li, Shikai and Fu, Jianglin and Liu, Kaiyuan and Wang, Wentao and Lin, Kwan-Yee and Wu, Wayne},
  journal={arXiv preprint arXiv:2404.01294},
  year={2024}
}