neuralmagic
/

Meta-Llama-3-70B-Instruct-FP8

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Lin-K76 commited on Jul 15

Commit

b3794bc

•

1 Parent(s): cc9f607

Update README.md

Files changed (1) hide show

README.md +6 -1

README.md CHANGED Viewed

@@ -84,11 +84,16 @@ ds = load_dataset("mgoin/ultrachat_2k", split="train_sft").select(range(512))
 examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
 examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")
-quantize_config = BaseQuantizeConfig(quant_method="fp8", activation_scheme="static")
 model = AutoFP8ForCausalLM.from_pretrained(
     pretrained_model_dir, quantize_config=quantize_config
 )
 model.quantize(examples)
 model.save_quantized(quantized_model_dir)
 ```

 examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
 examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")
+quantize_config = BaseQuantizeConfig(
+    quant_method="fp8",
+    activation_scheme="dynamic",  # or "static"
+    ignore_patterns=["re:.*lm_head"],
+)
 model = AutoFP8ForCausalLM.from_pretrained(
     pretrained_model_dir, quantize_config=quantize_config
 )
 model.quantize(examples)
 model.save_quantized(quantized_model_dir)
 ```