Spaces:

Akbartus
/

SmolVLM_CPU

Running

Akbartus commited on 6 days ago

Commit

c442031

•

1 Parent(s): 3fc7ec2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-Instruct",
         #_attn_implementation="flash_attention_2"
         ).to("cpu")
-@spaces.GPU
 def model_inference(
     images, text, assistant_prefix, decoding_strategy, temperature, max_new_tokens,
     repetition_penalty, top_p
@@ -45,7 +45,7 @@ def model_inference(
     prompt = processor.apply_chat_template(resulting_messages, add_generation_prompt=True)
     inputs = processor(text=prompt, images=[images], return_tensors="pt")
-    inputs = {k: v.to("cuda") for k, v in inputs.items()}
     generation_args = {
         "max_new_tokens": max_new_tokens,

         #_attn_implementation="flash_attention_2"
         ).to("cpu")
 def model_inference(
     images, text, assistant_prefix, decoding_strategy, temperature, max_new_tokens,
     repetition_penalty, top_p
     prompt = processor.apply_chat_template(resulting_messages, add_generation_prompt=True)
     inputs = processor(text=prompt, images=[images], return_tensors="pt")
+    inputs = {k: v.to("cpu") for k, v in inputs.items()}
     generation_args = {
         "max_new_tokens": max_new_tokens,