alimama-creative
/

SD3-Controlnet-Inpainting

@@ -9,7 +9,11 @@ tags:
 library_name: diffusers
 ---
-# SD3 ControlNet Inpainting
 ![SD3](images/sd3_compressed.png)
@@ -19,6 +23,8 @@ library_name: diffusers
 <center><i>a person wearing a white shoe, carrying a white bucket with text "alibaba" on it</i></center>
 Finetuned controlnet inpainting model based on sd3-medium, the inpainting model offers several advantages:
 * Leveraging the SD3 16-channel VAE and high-resolution generation capability at 1024, the model effectively preserves the integrity of non-inpainting regions, including text.
@@ -48,28 +54,21 @@ From left to right: Input image, Masked image, SDXL inpainting, Ours.
 # Using with Diffusers
-Step1： Make sure you upgrade to the latest version of diffusers(>=0.29.2): pip install -U diffusers.
-Step2: Download the two required Python files from [GitHub](https://github.com/JPlin/SD3-Controlnet-Inpainting).
-(We will merge this Feature to official Diffusers.)
-Step3: And then you can run demo.py or following:
 ``` python
-from diffusers.utils import load_image, check_min_version
 import torch
-# Local File
-from controlnet_sd3 import SD3ControlNetModel
-from pipeline_stable_diffusion_3_controlnet_inpainting import StableDiffusion3ControlNetInpaintingPipeline
-check_min_version("0.29.2")
-# Build model
 controlnet = SD3ControlNetModel.from_pretrained(
-    "alimama-creative/SD3-Controlnet-Inpainting",
-    use_safetensors=True,
-    extra_conditioning_channels=1,
 )
 pipe = StableDiffusion3ControlNetInpaintingPipeline.from_pretrained(
     "stabilityai/stable-diffusion-3-medium-diffusers",
@@ -80,35 +79,29 @@ pipe.text_encoder.to(torch.float16)
 pipe.controlnet.to(torch.float16)
 pipe.to("cuda")
-# Load image
 image = load_image(
     "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog.png"
 )
 mask = load_image(
     "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog_mask.png"
 )
-# Set args
 width = 1024
 height = 1024
-prompt="A cat is sitting next to a puppy."
 generator = torch.Generator(device="cuda").manual_seed(24)
-# Inference
 res_image = pipe(
-    negative_prompt='deformed, distorted, disfigured, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, NSFW',
     prompt=prompt,
     height=height,
     width=width,
-    control_image = image,
-    control_mask = mask,
     num_inference_steps=28,
     generator=generator,
     controlnet_conditioning_scale=0.95,
     guidance_scale=7,
 ).images[0]
-res_image.save(f'sd3.png')
 ```

 library_name: diffusers
 ---
+# Updates
+✨🎉 This model has been merged into [Diffusers](https://moon-ci-docs.huggingface.co/docs/diffusers/pr_9099/en/api/pipelines/controlnet_sd3) and can now be used conveniently. 💡 🎉✨
+# Examples
 ![SD3](images/sd3_compressed.png)
 <center><i>a person wearing a white shoe, carrying a white bucket with text "alibaba" on it</i></center>
+## SD3 Controlnet Inpainting
 Finetuned controlnet inpainting model based on sd3-medium, the inpainting model offers several advantages:
 * Leveraging the SD3 16-channel VAE and high-resolution generation capability at 1024, the model effectively preserves the integrity of non-inpainting regions, including text.
 # Using with Diffusers
+Install from source and Run
+``` Shell
+pip uninstall diffusers
+pip install git+https://github.com/huggingface/diffusers
+```
 ``` python
 import torch
+from diffusers.utils import load_image, check_min_version
+from diffusers.pipelines import StableDiffusion3ControlNetInpaintingPipeline
+from diffusers.models.controlnet_sd3 import SD3ControlNetModel
 controlnet = SD3ControlNetModel.from_pretrained(
+    "alimama-creative/SD3-Controlnet-Inpainting", use_safetensors=True, extra_conditioning_channels=1
 )
 pipe = StableDiffusion3ControlNetInpaintingPipeline.from_pretrained(
     "stabilityai/stable-diffusion-3-medium-diffusers",
 pipe.controlnet.to(torch.float16)
 pipe.to("cuda")
 image = load_image(
     "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog.png"
 )
 mask = load_image(
     "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog_mask.png"
 )
 width = 1024
 height = 1024
+prompt = "A cat is sitting next to a puppy."
 generator = torch.Generator(device="cuda").manual_seed(24)
 res_image = pipe(
+    negative_prompt="deformed, distorted, disfigured, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, NSFW",
     prompt=prompt,
     height=height,
     width=width,
+    control_image=image,
+    control_mask=mask,
     num_inference_steps=28,
     generator=generator,
     controlnet_conditioning_scale=0.95,
     guidance_scale=7,
 ).images[0]
+res_image.save(f"sd3.png")
 ```