use

#3
by goodasdgood - opened

how to use ?
where code example

import transformers
import torch

model_id = "ISTA-DASLab/Meta-Llama-3-8B-Instruct-AQLM-2Bit-1x16"

tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, use_fast=True)
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)

messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who is Napoleon Bonaparte?"},
]

outputs = pipeline(
messages,
max_new_tokens=128, # Reduced number of tokens
)
print(outputs[0]["generated_text"])

35mint
not work

it need gpu

i use colab

40mint

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

تحديد معرف النموذج

model_id = "ISTA-DASLab/Meta-Llama-3-8B-Instruct-AQLM-2Bit-1x16"

تحميل الـ tokenizer والموديل

tokenizer = AutoTokenizer.from_pretrained(model_id)

تعيين pad_token إلى eos_token إذا كان غير موجود

if tokenizer.pad_token is None:
tokenizer.pad_token = tokenizer.eos_token

تحميل النموذج مع تخفيض استخدام الذاكرة

model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True)

وضع النموذج في طور التقييم

model.eval()

إدخال نص للسؤال

prompt = "ما هي عاصمة فرنسا؟"

ترميز المدخلات مع تضمين attention_mask وتعيين pad_token_id

inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=128)

وضع البيانات على وحدة المعالجة المركزية (CPU)

inputs = {key: value.to("cpu") for key, value in inputs.items()}

توليد الإجابة مع تحسينات السرعة وتقليل استخدام الذاكرة

with torch.inference_mode(): # أسرع من no_grad
outputs = model.generate(
inputs["input_ids"],
attention_mask=inputs["attention_mask"], # تمرير attention_mask
max_length=50, # تحديد الحد الأقصى لطول النص الناتج لتسريع التوليد
pad_token_id=tokenizer.pad_token_id, # تعيين pad_token_id
num_beams=1, # استخدام شعاع واحد لتقليل الحسابات وتسريع التوليد
do_sample=True, # تقليل الاحتمالات باستخدام العينة
temperature=0.7 # تحسين تنوع الإجابات مع الحفاظ على السرعة
)

فك ترميز الناتج

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
on cloab without gpu

not work

Sign up or log in to comment