moondream2-batch-processing

Running on Zero

App Files Files Community

Csplk commited on Apr 19, 2024

Commit

6a8ca1f

verified ·

1 Parent(s): 93b2eb7

Create app.py

Browse files

Files changed (1) hide show

app.py +40 -0

app.py ADDED Viewed

	@@ -0,0 +1,40 @@

+import spaces
+import torch
+import re
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
+if torch.cuda.is_available():
+    device, dtype = "cuda", torch.float16
+else:
+    device, dtype = "cpu", torch.float32
+model_id = "vikhyatk/moondream2"
+revision = "2024-04-02"
+tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
+moondream = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, revision=revision
+).to(device=device, dtype=dtype)
+moondream.eval()
+@spaces.GPU(duration=10)
+def answer_questions(images, prompt_text):
+    prompts = [p.strip() for p in prompt_text.split(',')]  # Splitting and cleaning prompts
+    image_embeds = [moondream.encode_image(img) for img in images]
+    answers = moondream.batch_answer(
+        images=image_embeds,
+        prompts=prompts,
+        tokenizer=tokenizer,
+    )
+    return ["\n".join(ans) for ans in answers]
+with gr.Blocks() as demo:
+    gr.Markdown("# 🌔 moondream2\nA tiny vision language model. [GitHub](https://github.com/vikhyatk/moondream)")
+    with gr.Row():
+        img = gr.Gallery(label="Upload Images", type="pil")
+        prompt = gr.Textbox(label="Input Prompts", placeholder="Enter prompts separated by commas. Ex: Describe this image, What is in this image?", lines=2)
+        submit = gr.Button("Submit")
+    output = gr.TextArea(label="Responses", lines=4)
+    submit.click(answer_questions, [img, prompt], output)
+demo.queue().launch()