abhinavkulkarni
/

meta-llama-Llama-2-13b-chat-hf-w4-g128-awq

Text Generation

text-generation-inference

Model card Files Files and versions Community

Abhinav Kulkarni commited on Aug 2, 2023

Commit

54d79ef

•

1 Parent(s): 9feafc8

Updated README

Files changed (1) hide show

README.md +5 -0

README.md CHANGED Viewed

@@ -44,6 +44,7 @@ git clone https://github.com/mit-han-lab/llm-awq \
 ```
 ```python
 import torch
 from awq.quantize.quantizer import real_quantize_model_weight
 from transformers import AutoModelForCausalLM, AutoConfig, AutoTokenizer, TextStreamer
@@ -85,6 +86,7 @@ prompt = f'''What is the difference between nuclear fusion and fission?
 ###Response:'''
 input_ids = tokenizer(prompt, return_tensors='pt').input_ids.cuda()
 output = model.generate(
     inputs=input_ids,
     temperature=0.7,
@@ -94,6 +96,9 @@ output = model.generate(
     repetition_penalty=1.1,
     eos_token_id=tokenizer.eos_token_id,
     streamer=streamer)
 ```
 ## Evaluation

 ```
 ```python
+import time
 import torch
 from awq.quantize.quantizer import real_quantize_model_weight
 from transformers import AutoModelForCausalLM, AutoConfig, AutoTokenizer, TextStreamer
 ###Response:'''
 input_ids = tokenizer(prompt, return_tensors='pt').input_ids.cuda()
+t1 = time.time()
 output = model.generate(
     inputs=input_ids,
     temperature=0.7,
     repetition_penalty=1.1,
     eos_token_id=tokenizer.eos_token_id,
     streamer=streamer)
+t2 = time.time()
+print("*"*80)
+print(f"Generated {num_tokens/(t2-t1):.2f} token/s; {(t2-t1)*1000/num_tokens:.2f} ms/token")
 ```
 ## Evaluation