Spaces:

aatir
/

test_omo

Sleeping

App Files Files Community

aatir commited on Jul 4, 2024

Commit

5894739

1 Parent(s): c2cf3a4

rectified dtypes

Browse files

Files changed (2) hide show

app.py +20 -5
lib_omost/pipeline.py +9 -7

app.py CHANGED Viewed

@@ -35,21 +35,36 @@ import lib_omost.canvas as omost_canvas
 # SDXL
 sdxl_name = 'SG161222/RealVisXL_V4.0'
-# sdxl_name = 'stabilityai/stable-diffusion-xl-base-1.0'
 tokenizer = CLIPTokenizer.from_pretrained(
     sdxl_name, subfolder="tokenizer")
 tokenizer_2 = CLIPTokenizer.from_pretrained(
     sdxl_name, subfolder="tokenizer_2")
 text_encoder = CLIPTextModel.from_pretrained(
-    sdxl_name, subfolder="text_encoder", torch_dtype=torch.float16, variant="fp16", device_map="auto")
 text_encoder_2 = CLIPTextModel.from_pretrained(
-    sdxl_name, subfolder="text_encoder_2", torch_dtype=torch.float16, variant="fp16", device_map="auto")
 vae = AutoencoderKL.from_pretrained(
-    sdxl_name, subfolder="vae", torch_dtype=torch.bfloat16, variant="fp16", device_map="auto")  # bfloat16 vae
 unet = UNet2DConditionModel.from_pretrained(
-    sdxl_name, subfolder="unet", torch_dtype=torch.float16, variant="fp16", device_map="auto")
 unet.set_attn_processor(AttnProcessor2_0())
 vae.set_attn_processor(AttnProcessor2_0())

 # SDXL
+# sdxl_name = 'SG161222/RealVisXL_V4.0'
+# # sdxl_name = 'stabilityai/stable-diffusion-xl-base-1.0'
+# tokenizer = CLIPTokenizer.from_pretrained(
+#     sdxl_name, subfolder="tokenizer")
+# tokenizer_2 = CLIPTokenizer.from_pretrained(
+#     sdxl_name, subfolder="tokenizer_2")
+# text_encoder = CLIPTextModel.from_pretrained(
+#     sdxl_name, subfolder="text_encoder", torch_dtype=torch.float16, variant="fp16", device_map="auto")
+# text_encoder_2 = CLIPTextModel.from_pretrained(
+#     sdxl_name, subfolder="text_encoder_2", torch_dtype=torch.float16, variant="fp16", device_map="auto")
+# vae = AutoencoderKL.from_pretrained(
+#     sdxl_name, subfolder="vae", torch_dtype=torch.bfloat16, variant="fp16", device_map="auto")  # bfloat16 vae
+# unet = UNet2DConditionModel.from_pretrained(
+#     sdxl_name, subfolder="unet", torch_dtype=torch.float16, variant="fp16", device_map="auto")
 sdxl_name = 'SG161222/RealVisXL_V4.0'
 tokenizer = CLIPTokenizer.from_pretrained(
     sdxl_name, subfolder="tokenizer")
 tokenizer_2 = CLIPTokenizer.from_pretrained(
     sdxl_name, subfolder="tokenizer_2")
 text_encoder = CLIPTextModel.from_pretrained(
+    sdxl_name, subfolder="text_encoder", torch_dtype=torch.float32, device_map="auto")
 text_encoder_2 = CLIPTextModel.from_pretrained(
+    sdxl_name, subfolder="text_encoder_2", torch_dtype=torch.float32, device_map="auto")
 vae = AutoencoderKL.from_pretrained(
+    sdxl_name, subfolder="vae", torch_dtype=torch.float32, device_map="auto")
 unet = UNet2DConditionModel.from_pretrained(
+    sdxl_name, subfolder="unet", torch_dtype=torch.float32, device_map="auto")
 unet.set_attn_processor(AttnProcessor2_0())
 vae.set_attn_processor(AttnProcessor2_0())

lib_omost/pipeline.py CHANGED Viewed

@@ -90,6 +90,7 @@ class KModel:
         return torch.cat([sigmas, sigmas.new_zeros([1])])
     def __call__(self, x, sigma, **extra_args):
         x_ddim_space = x / (sigma[:, None, None, None] ** 2 + self.sigma_data ** 2) ** 0.5
         t = self.timestep(sigma)
         cfg_scale = extra_args['cfg_scale']
@@ -380,6 +381,7 @@ class StableDiffusionXLOmostPipeline(StableDiffusionXLImg2ImgPipeline):
     ):
         device = self.unet.device
         cross_attention_kwargs = cross_attention_kwargs or {}
         # Sigmas
@@ -405,13 +407,13 @@ class StableDiffusionXLOmostPipeline(StableDiffusionXLImg2ImgPipeline):
         # Batch
-        latents = latents.to(device)
-        add_time_ids = add_time_ids.repeat(batch_size, 1).to(device)
-        add_neg_time_ids = add_neg_time_ids.repeat(batch_size, 1).to(device)
-        prompt_embeds = [(k.to(device), v.repeat(batch_size, 1, 1).to(noise)) for k, v in prompt_embeds]
-        negative_prompt_embeds = [(k.to(device), v.repeat(batch_size, 1, 1).to(noise)) for k, v in negative_prompt_embeds]
-        pooled_prompt_embeds = pooled_prompt_embeds.repeat(batch_size, 1).to(noise)
-        negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(batch_size, 1).to(noise)
         # Feeds

         return torch.cat([sigmas, sigmas.new_zeros([1])])
     def __call__(self, x, sigma, **extra_args):
+        dtype = torch.float32
         x_ddim_space = x / (sigma[:, None, None, None] ** 2 + self.sigma_data ** 2) ** 0.5
         t = self.timestep(sigma)
         cfg_scale = extra_args['cfg_scale']
     ):
         device = self.unet.device
+        dtype = torch.float32
         cross_attention_kwargs = cross_attention_kwargs or {}
         # Sigmas
         # Batch
+        latents = latents.to(device).to(dtype)
+        add_time_ids = add_time_ids.repeat(batch_size, 1).to(device).to(dtype)
+        add_neg_time_ids = add_neg_time_ids.repeat(batch_size, 1).to(device).to(dtype)
+        prompt_embeds = [(k.to(device), v.repeat(batch_size, 1, 1).to(device).to(dtype)) for k, v in prompt_embeds]
+        negative_prompt_embeds = [(k.to(device), v.repeat(batch_size, 1, 1).to(device).to(dtype)) for k, v in negative_prompt_embeds]
+        pooled_prompt_embeds = pooled_prompt_embeds.repeat(batch_size, 1).to(device).to(dtype)
+        negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(batch_size, 1).to(device).to(dtype)
         # Feeds