Trained for 1 epochs and 49000 steps.

Trained with datasets ['text-embeds-pixart-filter', 'photo-concept-bucket', 'midjourney-v6-520k-raw', 'sfwbooru', 'nijijourney-v6-520k-raw', 'dalle3']
Learning rate 1e-06, batch size 24, and 1 gradient accumulation steps.
Used DDPM noise scheduler for training with epsilon prediction type and rescaled_betas_zero_snr=False
Using 'linspace' timestep spacing.
Base model: ptx0/pixart-900m-1024-ft-large
VAE: madebyollin/sdxl-vae-fp16-fix

Files changed (12) hide show

README.md +11 -147
optimizer.bin +1 -1
random_states_0.pkl +2 -2
scheduler.bin +1 -1
training_state-dalle3.json +2 -2
training_state-midjourney-v6-520k-raw.json +2 -2
training_state-nijijourney-v6-520k-raw.json +2 -2
training_state-photo-concept-bucket.json +2 -2
training_state-sfwbooru.json +0 -0
training_state.json +1 -1
transformer/config.json +1 -1
transformer/diffusion_pytorch_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -47,7 +47,7 @@ You may reuse the base model text encoder for inference.
 ## Training settings
 - Training epochs: 1
-- Training steps: 48000
 - Learning rate: 1e-06
 - Effective batch size: 192
   - Micro-batch size: 24
@@ -64,180 +64,44 @@ You may reuse the base model text encoder for inference.
 ### photo-concept-bucket
 - Repeats: 0
-- Total number of images: ~564672
-- Total number of aspect buckets: 34
-- Resolution: 1.0 megapixels
-- Cropped: False
-- Crop style: None
-- Crop aspect: None
-### moviecollection
-- Repeats: 15
-- Total number of images: ~768
-- Total number of aspect buckets: 11
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### experimental
-- Repeats: 0
-- Total number of images: ~1728
-- Total number of aspect buckets: 11
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: random
-### ethnic
-- Repeats: 0
-- Total number of images: ~1152
-- Total number of aspect buckets: 7
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### sports
 - Repeats: 0
-- Total number of images: ~576
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
-### architecture
 - Repeats: 0
-- Total number of images: ~4224
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
-### shutterstock
-- Repeats: 0
-- Total number of images: ~14016
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### cinemamix-1mp
-- Repeats: 0
-- Total number of images: ~7296
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### nsfw-1024
-- Repeats: 0
-- Total number of images: ~10368
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### anatomy
-- Repeats: 5
-- Total number of images: ~15168
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### bg20k-1024
-- Repeats: 0
-- Total number of images: ~89088
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### yoga
-- Repeats: 0
-- Total number of images: ~2880
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### photo-aesthetics
 - Repeats: 0
-- Total number of images: ~28608
-- Total number of aspect buckets: 17
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### text-1mp
-- Repeats: 125
-- Total number of images: ~12864
-- Total number of aspect buckets: 3
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### movieposters
-- Repeats: 10
-- Total number of images: ~192
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
-### normalnudes
-- Repeats: 10
-- Total number of images: ~384
-- Total number of aspect buckets: 8
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### pixel-art
-- Repeats: 0
-- Total number of images: ~384
-- Total number of aspect buckets: 11
-- Resolution: 1.0 megapixels
-- Cropped: True
-- Crop style: random
-- Crop aspect: random
-### signs
 - Repeats: 0
-- Total number of images: ~384
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
-### midjourney-v6-520k-raw
-- Repeats: 0
-- Total number of images: ~513792
-- Total number of aspect buckets: 58
-- Resolution: 1.0 megapixels
-- Cropped: False
-- Crop style: None
-- Crop aspect: None
-### sfwbooru
-- Repeats: 0
-- Total number of images: ~271488
-- Total number of aspect buckets: 73
-- Resolution: 1.0 megapixels
-- Cropped: False
-- Crop style: None
-- Crop aspect: None
-### nijijourney-v6-520k-raw
-- Repeats: 0
-- Total number of images: ~516288
-- Total number of aspect buckets: 48
-- Resolution: 1.0 megapixels
-- Cropped: False
-- Crop style: None
-- Crop aspect: None
-### dalle3
-- Repeats: 0
-- Total number of images: ~1119168
-- Total number of aspect buckets: 31
-- Resolution: 1.0 megapixels
-- Cropped: False
-- Crop style: None
-- Crop aspect: None
 ## Inference

 ## Training settings
 - Training epochs: 1
+- Training steps: 49000
 - Learning rate: 1e-06
 - Effective batch size: 192
   - Micro-batch size: 24
 ### photo-concept-bucket
 - Repeats: 0
+- Total number of images: ~567360
+- Total number of aspect buckets: 4
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: random
+### midjourney-v6-520k-raw
 - Repeats: 0
+- Total number of images: ~390912
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
+### sfwbooru
 - Repeats: 0
+- Total number of images: ~233664
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
+### nijijourney-v6-520k-raw
 - Repeats: 0
+- Total number of images: ~416064
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
+### dalle3
 - Repeats: 0
+- Total number of images: ~1889680
 - Total number of aspect buckets: 1
 - Resolution: 1.0 megapixels
 - Cropped: True
 - Crop style: random
 - Crop aspect: square
 ## Inference

optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d0be51ff8aeeb782101c46a02642918315b9a58e73c71bad06e7747fe99f4e6
 size 5451415117

 version https://git-lfs.github.com/spec/v1
+oid sha256:31436e08edb8a07440cce2917fa89004f961ab7231c1a3661bbc223235e74181
 size 5451415117

random_states_0.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7261614624f985fb7151c899f96dd187df51cc6d2b2e13ba3b8d4024cb0b8dfe
-size 16100

 version https://git-lfs.github.com/spec/v1
+oid sha256:642a92b3aa2cf8b8d4ae5f316f2a801766499a1de1c2814d9fb38d3570e395be
+size 16036

scheduler.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c60b0e4b960d5252fe080b28e96bee2bdd8a054c9be9d237c03574578d18016
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:24151575a07d0cb2bff32d0adaa4632b4d7035e26a5f5d7418148e7a8289bc63
 size 1000

training_state-dalle3.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3f887bfbe58f353f8efdfc6cc9f2e7a4f493831c0ad768a1461c04fa0d48c36
-size 16471566

 version https://git-lfs.github.com/spec/v1
+oid sha256:021479396c8e26c8703c6d3289b88f6d27f60c50d9378d9f6b233c21ef6eb3e3
+size 18150691

training_state-midjourney-v6-520k-raw.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce901404fbd7e24ea7299ad8e02d1966388f9511a12f55e303f8b86937617df
-size 6230950

 version https://git-lfs.github.com/spec/v1
+oid sha256:51365d239748bf1c9254199ae86ec71707e258e32f6b502e9462265a4dbe26b2
+size 4739976

training_state-nijijourney-v6-520k-raw.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9cb4113c645a0329ef20e27ba715c174682d18e277eda12a8abf2da776169c5
-size 6712778

 version https://git-lfs.github.com/spec/v1
+oid sha256:51b8582efb189da781d1653f4b91e2e883731dc06c5b574d04473df0c0e55e72
+size 5409000

training_state-photo-concept-bucket.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84f2a5908ae617088ef63fda479dd0d59e55a8a10ba5ba303b238f3ebf07b1fb
-size 5270267

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e9cbc69396a3a3bbc39cf06195e833c68ecab342f53495c6a8b5b22fa5b2982
+size 5295188

training_state-sfwbooru.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_state.json CHANGED Viewed

@@ -1 +1 @@

- {"global_step": ~~48000~~, "epoch_step": 1, "epoch": 2, "exhausted_backends": ["pixel-art", "signs", "sports", "ethnic", "experimental", "movieposters", "normalnudes", "yoga", "cinemamix-1mp", "architecture", "moviecollection", "shutterstock", "nsfw-1024", "photo-aesthetics", "bg20k-1024", "anatomy", "sfwbooru", "nijijourney-v6-520k-raw", "midjourney-v6-520k-raw", "photo-concept-bucket"], "repeats": {"bookcovers": 0, "signs": 0, "normalnudes": 0, "nijijourney": 0, "movieposters": 0, "celebrities": 0, "pixel-art": 0, "propagandaposters": 0, "sports": 0, "moviecollection": 0, "gay": 0, "experimental": 0, "yoga": 0, "ethnic": 0, "cinemamix-1mp": 0, "architecture": 0, "mj-60": 0, "text-1mp": 65, "shutterstock": 0, "nsfw-1024": 0, "photo-aesthetics": 0, "anatomy": 0, "bg20k-1024": 0, "sfwbooru": 0, "midjourney-v6-520k-raw": 0, "nijijourney-v6-520k-raw": 0, "photo-concept-bucket": 0, "dalle3": 0}}

+ {"global_step": 49000, "epoch_step": 1, "epoch": 2, "exhausted_backends": ["pixel-art", "signs", "sports", "ethnic", "experimental", "movieposters", "normalnudes", "yoga", "cinemamix-1mp", "architecture", "moviecollection", "shutterstock", "nsfw-1024", "photo-aesthetics", "bg20k-1024", "anatomy", "sfwbooru", "nijijourney-v6-520k-raw", "midjourney-v6-520k-raw", "photo-concept-bucket"], "repeats": {"bookcovers": 0, "signs": 0, "normalnudes": 0, "nijijourney": 0, "movieposters": 0, "celebrities": 0, "pixel-art": 0, "propagandaposters": 0, "sports": 0, "moviecollection": 0, "gay": 0, "experimental": 0, "yoga": 0, "ethnic": 0, "cinemamix-1mp": 0, "architecture": 0, "mj-60": 0, "text-1mp": 65, "shutterstock": 0, "nsfw-1024": 0, "photo-aesthetics": 0, "anatomy": 0, "bg20k-1024": 0, "sfwbooru": 0, "midjourney-v6-520k-raw": 0, "nijijourney-v6-520k-raw": 0, "photo-concept-bucket": 0, "dalle3": 0}}

transformer/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_class_name": "PixArtTransformer2DModel",
   "_diffusers_version": "0.30.0.dev0",
-  "_name_or_path": "/home/ubuntu/training/models/checkpoint-46000",
   "activation_fn": "gelu-approximate",
   "attention_bias": true,
   "attention_head_dim": 72,

 {
   "_class_name": "PixArtTransformer2DModel",
   "_diffusers_version": "0.30.0.dev0",
+  "_name_or_path": "/home/ubuntu/training/models/checkpoint-48000",
   "activation_fn": "gelu-approximate",
   "attention_bias": true,
   "attention_head_dim": 72,

transformer/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a47ee0ec97a4701d87142fd35a7984efb5e8a1e1fb940844b21e10fb366670cc
 size 1816969728

 version https://git-lfs.github.com/spec/v1
+oid sha256:cccac28f9d23032a0cfafe5cafb6f80a3ac40496ba900554ac200818f976ae95
 size 1816969728