LlavaMistral1

Runtime error

lorocksUMD commited on 26 days ago

Commit

d5d1509

•

1 Parent(s): 3b00bc2

Update llava/model/builder.py

Files changed (1) hide show

llava/model/builder.py CHANGED Viewed

@@ -31,9 +31,10 @@ def load_pretrained_model(model_path, model_base, model_name, load_8bit=False, l
     load_8bit = True
     if load_8bit:
-        kwargs['load_in_8bit'] = True
     elif load_4bit:
-        kwargs['load_in_4bit'] = True
         kwargs['quantization_config'] = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_compute_dtype=torch.float16,
@@ -41,7 +42,7 @@ def load_pretrained_model(model_path, model_base, model_name, load_8bit=False, l
             bnb_4bit_quant_type='nf4'
         )
     else:
-        kwargs['torch_dtype'] = torch.float16
     if use_flash_attn:
         kwargs['attn_implementation'] = 'flash_attention_2'

     load_8bit = True
     if load_8bit:
+        # kwargs['load_in_8bit'] = True
+        kwargs['quantization_config'] = BitsAndBytesConfig(load_in_8bit=True)
     elif load_4bit:
+        # kwargs['load_in_4bit'] = True
         kwargs['quantization_config'] = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_compute_dtype=torch.float16,
             bnb_4bit_quant_type='nf4'
         )
     else:
+        kwargs['torch_dtype'] = torch.float32
     if use_flash_attn:
         kwargs['attn_implementation'] = 'flash_attention_2'