Spaces:

Tonic1
/

kosmos-2

Sleeping

App Files Files Community

Tonic commited on Mar 13, 2024

Commit

4641b71

verified ·

1 Parent(s): bc7047f

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -34

app.py CHANGED Viewed

@@ -1,45 +1,45 @@
-import os
 import requests
 from io import BytesIO
 from PIL import Image
 from transformers import AutoProcessor, AutoModelForVision2Seq
-def generate_caption(image):
-  # Load pre-trained models & processors
-  model = AutoModelForVision2Seq.from_pretrained("microsoft/kosmos-2-patch14-224")
-  processor = AutoProcessor.from_pretrained("microsoft/kosmos-2-patch14-224")
-  prompt = "<grounding>An image of"
-  # Open the uploaded image file
-  img = Image.open(BytesIO(image))
-  # Save the image locally and open it again to avoid potential issues with reusing the same PIL object
-  img.save("temp_image.jpg")
-  img = Image.open("temp_image.jpg")
-  inputs = processor(text=prompt, images=img, return_tensors="pt")
-  # Generate caption
-  generated_ids = model.generate(**inputs, max_new_tokens=128)
-  generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-  # Process the generated caption
-  processed_text, _ = processor.post_process_generation(generated_text)
-  return processed_text
-import gradio as gr
-title = 'Image Caption Generator'
-description = 'Generate descriptive captions for images.'
-examples = [["PRO-b0fe1914d67344d98e120a19cd1aadf1.jpg"]]
-article = '<p style="margin:auto;max-width:600px;">This tool generates descriptive captions for given images.</p>'
-interface = gr.Interface(fn=generate_caption,
-                        inputs=gr.Image(),
-                        outputs=gr.Textbox(),
-                        title=title, description=description, examples=examples, article=article)
-interface.launch()

+import torch
 import requests
 from io import BytesIO
 from PIL import Image
 from transformers import AutoProcessor, AutoModelForVision2Seq
+import gradio as gr
+def load_models():
+    # Load pre-trained models
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    model = AutoModelForVision2Seq.from_pretrained("microsoft/kosmos-2-patch14-224").to(device)
+    processor = AutoProcessor.from_pretrained("microsoft/kosmos-2-patch14-224")
+    return model, processor
+def generate_description(image):
+    model, processor = load_models()
+    prompt = "<grounding>An image of"
+    inputs = processor(text=prompt, images=image, padding='max_length', truncation=True, return_tensors="pt")
+    # Move tensors to GPU if available
+    inputs = {k: v.to(model.device) for k, v in inputs.items()}
+    # Generate description
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+    return generated_text
+if __name__ == '__main__':
+    interface = gr.Interface(
+        generate_description,
+        ["image"],
+        "text",
+        capture_session=True,
+        allow_recording=False,
+        title="GPT-based Visual Storytelling",
+        description="Upload an image to get a detailed caption generated by our powerful AI!",
+        examples=[
+            ['PRO-b0fe1914d67344d98e120a19cd1aadf1.jpg']
+        ],
+    )
+    interface.launch()