jimmycarter
/

LibreFLUX

Text-to-Image

Diffusers

Safetensors

FluxPipeline

Inference Endpoints

Model card Files Files and versions Community

jimmycarter commited on 26 days ago

Commit

e5befa2

•

1 Parent(s): b8de496

Final pipeline fixes

Browse files

Files changed (2) hide show

README.md +1 -1
pipeline.py +8 -8

README.md CHANGED Viewed

@@ -69,12 +69,12 @@ quantize(
 freeze(pipe.transformer)
 pipe.enable_model_cpu_offload()
-# If you are still running out of memory, add do_batch_cfg=False below.
 images = pipe(
   prompt=prompt,
   negative_prompt=negative_prompt,
   device=None,
   return_dict=False,
 )
 images[0][0].save('chalkboard.png')
 ```

 freeze(pipe.transformer)
 pipe.enable_model_cpu_offload()
 images = pipe(
   prompt=prompt,
   negative_prompt=negative_prompt,
   device=None,
   return_dict=False,
+  do_batch_cfg=False, # https://github.com/huggingface/optimum-quanto/issues/327
 )
 images[0][0].save('chalkboard.png')
 ```

pipeline.py CHANGED Viewed

@@ -1614,14 +1614,14 @@ class CustomPipeline(DiffusionPipeline, SD3LoraLoaderMixin):
                 if guidance_scale_real > 1.0 and i >= no_cfg_until_timestep:
                     progress_bar.set_postfix(
                         {
-                            'ts': t / 1000.0,
                             'cfg': self._guidance_scale_real,
                         },
                     )
                 else:
                     progress_bar.set_postfix(
                         {
-                            'ts': t / 1000.0,
                             'cfg': 'N/A',
                         },
                     )
@@ -1658,17 +1658,17 @@ class CustomPipeline(DiffusionPipeline, SD3LoraLoaderMixin):
                 # Prepare extra transformer arguments
                 extra_transformer_args = {}
                 if prompt_mask is not None:
-                    extra_transformer_args["attention_mask"] = prompt_mask_input.to(device=self.transformer.device).contiguous()
                 # Forward pass through the transformer
                 noise_pred = self.transformer(
-                    hidden_states=latent_model_input.to(device=self.transformer.device).contiguous() ,
                     timestep=timestep / 1000,
                     guidance=guidance,
-                    pooled_projections=pooled_prompt_embeds_input.to(device=self.transformer.device).contiguous() ,
-                    encoder_hidden_states=prompt_embeds_input.to(device=self.transformer.device).contiguous() ,
-                    txt_ids=text_ids_input.to(device=self.transformer.device).contiguous() if text_ids is not None else None,
-                    img_ids=latent_image_ids_input.to(device=self.transformer.device).contiguous() if latent_image_ids is not None else None,
                     joint_attention_kwargs=self.joint_attention_kwargs,
                     return_dict=False,
                     **extra_transformer_args,

                 if guidance_scale_real > 1.0 and i >= no_cfg_until_timestep:
                     progress_bar.set_postfix(
                         {
+                            'ts': t.detach().item() / 1000.0,
                             'cfg': self._guidance_scale_real,
                         },
                     )
                 else:
                     progress_bar.set_postfix(
                         {
+                            'ts': t.detach().item() / 1000.0,
                             'cfg': 'N/A',
                         },
                     )
                 # Prepare extra transformer arguments
                 extra_transformer_args = {}
                 if prompt_mask is not None:
+                    extra_transformer_args["attention_mask"] = prompt_mask_input.to(device=self.transformer.device)
                 # Forward pass through the transformer
                 noise_pred = self.transformer(
+                    hidden_states=latent_model_input.to(device=self.transformer.device),
                     timestep=timestep / 1000,
                     guidance=guidance,
+                    pooled_projections=pooled_prompt_embeds_input.to(device=self.transformer.device),
+                    encoder_hidden_states=prompt_embeds_input.to(device=self.transformer.device),
+                    txt_ids=text_ids_input.to(device=self.transformer.device) if text_ids is not None else None,
+                    img_ids=latent_image_ids_input.to(device=self.transformer.device) if latent_image_ids is not None else None,
                     joint_attention_kwargs=self.joint_attention_kwargs,
                     return_dict=False,
                     **extra_transformer_args,