ModelCloud
/

gemma-2-27b-it-gptq-4bit

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

lrl-modelcloud commited on Jul 22

Commit

5b3a0a8

•

1 Parent(s): 854b0c5

Update README.md

Files changed (1) hide show

README.md +1 -10

README.md CHANGED Viewed

@@ -24,7 +24,6 @@ os.environ['VLLM_ATTENTION_BACKEND'] = 'FLASHINFER'
 from transformers import AutoTokenizer
 from gptqmodel import BACKEND, GPTQModel
-from vllm import SamplingParams
 model_name = "ModelCloud/gemma-2-27b-it-gptq-4bit"
@@ -37,15 +36,7 @@ model = GPTQModel.from_quantized(
             backend=BACKEND.VLLM,
         )
-sampling_params = SamplingParams(temperature=0.95, max_tokens=128)
 inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
-outputs = model.generate(
-            prompts=inputs,
-            sampling_params=sampling_params,
-        )
 print(outputs[0].outputs[0].text)
 ```

 from transformers import AutoTokenizer
 from gptqmodel import BACKEND, GPTQModel
 model_name = "ModelCloud/gemma-2-27b-it-gptq-4bit"
             backend=BACKEND.VLLM,
         )
 inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
+outputs = model.generate(prompts=inputs,)
 print(outputs[0].outputs[0].text)
 ```