File size: 2,829 Bytes
d047a8e c17c7a2 527c2f8 8193fa6 527c2f8 d047a8e c17c7a2 d047a8e f64489d d047a8e c17c7a2 e7057a5 d047a8e e3bdd1a c17c7a2 838752c 260524c 838752c e3bdd1a 4c789fb e3bdd1a c17c7a2 4c789fb c17c7a2 4c789fb 8193fa6 4c789fb c17c7a2 4c789fb c17c7a2 260524c 4c789fb e3bdd1a c17c7a2 260524c c17c7a2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 |
---
license: creativeml-openrail-m
---
</p>
## controlnet_IP-adapter
controlnet_IP-adapterは参照したい画像を入れると画風や人物の雰囲気などプロンプトで指定しにくい部分を模倣することができます。
推奨モデルはnoobAIシリーズです。コントロールネットで「IP-adapter」、プリプロセッサ「CLIP-ViT-H (IPAdapter)」、modelに「ip_adapter_Noobtest_800000.bin」を選択してください。
学習不足を感じているので使い勝手は悪いかもしれません。
- 24年12月30日追記
animagineXL3.1ベースの学習モデルである「ip_adapter_test_400000.bin」も公開しました。推奨はanimagineXLシリーズです。
コントロールネットでの使用例はNoobAI使用時と変わりません。
## 作例
- ![](image1.jpg)
## 参考設定例
- 画像によってweightやendstepを調節することをお勧めします。関与率が高いと破綻が増えることがあります。
- ![](image2.png)
---
## 学習の詳細
- 全学習共通
使用機材:RTX A6000(48GB)
学習時間:408時間(約17日間)
バッチサイズ:2
学習解像度1024
# 学習第一段階
ベースIP-adapterモデル:ip-adapter_sdxl.bin(https://huggingface.co/h94/IP-Adapter)
ベースcheckpoint:animagineXL3.1
トレーニング枚数:5万枚
学習率:1e-4(一定)
学習ステップ:40万ステップ
# 学習第二段階
ベースIP-adapterモデル:ip-adapter_animegineXL-400000.bin(24年12月30日公開)
ベースモデル:NoobAI 1.1
トレーニング枚数:5万枚(途中から反転画像を加え10万枚に)
学習率:1e-7(一定)
学習ステップ:40万ステップ
# 学習第三段階
ベースIP-adapterモデル:ip-adapter_noobAI_XL-400000.bin(非公開)
ベースモデル:NoobAI 1.1
トレーニング枚数:10万枚(一部に前回のデータセットを含む・反転画像なし)
学習率:6e-5(1%ウォームアップ付きコサイン曲線・終端1.2e-5)
学習ステップ:40万ステップ
---
# 備考
SDXL_baseで学習されたIP-adapterモデルはanimagineXL3.1では1e-4という比較的高い学習率でも発散することなく学習できた。
しかし、学習第二段階でNoobAIをもとに学習すると高い学習率では早々に発散が発生した。
そこで、一度低い学習率でトレーニングを行い徐々にNoobAIに適応するよう学習を行った。
学習第三段階でよりNoobAIにフィットするよう学習率を上げた。コサイン曲線を導入したが必要性は薄いと思われる。
---
# 謝辞
最後にこの学習に多くのアドバイスをくださった天紗愛氏(https://x.com/Ai_tensa) にこの場を借りてお礼申し上げます。 |