add model_index.json; update configs

Files changed (3) hide show

model_index.json ADDED Viewed

+{
+  "_class_name": "AllegroPipeline",
+  "_diffusers_version": "0.31.0.dev0",
+  "scheduler": [
+    "diffusers",
+    "EulerAncestralDiscreteScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "T5EncoderModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "T5Tokenizer"
+  ],
+  "transformer": [
+    "diffusers",
+    "AllegroTransformer3DModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKLAllegro"
+  ]
+}

transformer/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "AllegroTransformer3DModel",
-  "_diffusers_version": "0.28.0",
   "activation_fn": "gelu-approximate",
   "attention_bias": true,
   "attention_head_dim": 96,
@@ -25,12 +25,16 @@
   "out_channels": 4,
   "patch_size": 2,
   "patch_size_t": 1,
   "sa_attention_mode": "flash",
   "sample_size": [
     90,
     160
   ],
   "sample_size_t": 22,
   "upcast_attention": false,
   "use_additional_conditions": null,
   "use_linear_projection": false,

 {
   "_class_name": "AllegroTransformer3DModel",
+  "_diffusers_version": "0.31.0.dev0",
   "activation_fn": "gelu-approximate",
   "attention_bias": true,
   "attention_head_dim": 96,
   "out_channels": 4,
   "patch_size": 2,
   "patch_size_t": 1,
+  "patch_size_temporal": 1,
   "sa_attention_mode": "flash",
+  "sample_frames": 22,
+  "sample_height": 90,
   "sample_size": [
     90,
     160
   ],
   "sample_size_t": 22,
+  "sample_width": 160,
   "upcast_attention": false,
   "use_additional_conditions": null,
   "use_linear_projection": false,

vae/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "_class_name": "AllegroAutoencoderKL3D",
-  "_diffusers_version": "0.28.0",
   "act_fn": "silu",
   "block_out_channels": [
     128,
@@ -22,6 +22,12 @@
   ],
   "chunk_len": 24,
   "down_block_num": 4,
   "force_upcast": true,
   "in_channels": 3,
   "latent_channels": 4,
@@ -31,10 +37,30 @@
   "out_channels": 3,
   "sample_size": 320,
   "scale_factor": 0.13,
   "t_over": 8,
   "tile_overlap": [
     120,
     80
   ],
-  "up_block_num": 4
 }

 {
+  "_class_name": "AutoencoderKLAllegro",
+  "_diffusers_version": "0.31.0.dev0",
   "act_fn": "silu",
   "block_out_channels": [
     128,
   ],
   "chunk_len": 24,
   "down_block_num": 4,
+  "down_block_types": [
+    "AllegroDownBlock3D",
+    "AllegroDownBlock3D",
+    "AllegroDownBlock3D",
+    "AllegroDownBlock3D"
+  ],
   "force_upcast": true,
   "in_channels": 3,
   "latent_channels": 4,
   "out_channels": 3,
   "sample_size": 320,
   "scale_factor": 0.13,
+  "scaling_factor": 0.13235,
   "t_over": 8,
+  "temporal_compression_ratio": 4,
+  "temporal_downsample_blocks": [
+    true,
+    true,
+    false,
+    false
+  ],
+  "temporal_upsample_blocks": [
+    false,
+    true,
+    true,
+    false
+  ],
   "tile_overlap": [
     120,
     80
   ],
+  "up_block_num": 4,
+  "up_block_types": [
+    "AllegroUpBlock3D",
+    "AllegroUpBlock3D",
+    "AllegroUpBlock3D",
+    "AllegroUpBlock3D"
+  ]
 }