smpanaro
/

Llama-2-7b-NuGPTQ

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

smpanaro commited on Oct 12, 2024

Commit

9e80c9f

·

verified ·

1 Parent(s): 469fa70

Update README.md

Files changed (1) hide show

README.md +1 -0

README.md CHANGED Viewed

@@ -5,6 +5,7 @@ metrics:
 - perplexity
 base_model:
 - meta-llama/Llama-2-7b-hf
 ---
 **N**on-**u**niform **GPTQ** (NuGPTQ) combines [GPTQ](https://arxiv.org/abs/2210.17323), [SqueezeLLM](https://arxiv.org/abs/2306.07629) and [output scaling](https://stephenpanaro.com/blog/llm-quantization-for-iphone) for a competitive whole-tensor (no grouping) LLM compression method.

 - perplexity
 base_model:
 - meta-llama/Llama-2-7b-hf
+quantized_by: smpanaro
 ---
 **N**on-**u**niform **GPTQ** (NuGPTQ) combines [GPTQ](https://arxiv.org/abs/2210.17323), [SqueezeLLM](https://arxiv.org/abs/2306.07629) and [output scaling](https://stephenpanaro.com/blog/llm-quantization-for-iphone) for a competitive whole-tensor (no grouping) LLM compression method.