replace with full range sym auto-round result

Browse files

Signed-off-by: wenhuach <wenhuach87@gmail.com>

Files changed (6) hide show

README.md +0 -145
config.json +4 -5
model.safetensors → model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +738 -0
quantization_config.json +6 -4

README.md DELETED Viewed

@@ -1,145 +0,0 @@
----
-license: apache-2.0
-datasets:
-- NeelNanda/pile-10k
----
----
-license: apache-2.0
-datasets:
-- NeelNanda/pile-10k
-## Model Details
-This model is an int4 model with group_size 128 with quantized lm-head of [Qwen/Qwen2-7B](https://huggingface.co/Qwen/Qwen2-7B) generated by [intel/auto-round](https://github.com/intel/auto-round), auto-round is needed to run this model
-## How To Use
-### INT4 Inference
-```python
-##git clone https://github.com/intel/auto-round.git
-##cd auto-round && pip install -vvv --no-build-isolation -e .
-from auto_round.auto_quantizer import AutoHfQuantizer
-from transformers import AutoModelForCausalLM,AutoTokenizer
-quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
-tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
-model = AutoModelForCausalLM.from_pretrained(quantized_model_dir, device_map="auto")
-text = "下面我来介绍一下阿里巴巴公司，"
-text = "88+99等于多少？"
-text = "Once upon a time,"
-text = "There is a girl who likes adventure,"
-inputs = tokenizer(text, return_tensors="pt").to(model.device)
-print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))
-##下面我来介绍一下阿里巴巴公司，阿里巴巴公司是1999年9月8日由马云在杭州创立的，阿里巴巴集团主要经营业务包括：淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里
-##"88+99等于多少？ 88+99=187 \n 计算： (1) 1 2 + 1 3 + 1 4 + 1 5 + 1 6 + 1 7 + 1 8"
-##Once upon a time, there was a little girl named Emily who loved to read books. She would spend hours lost in the pages of her favorite stories, imagining herself in the worlds she read about. One day, Emily stumbled upon a book called "The Enchanted Forest
-##There is a girl who likes adventure, and she is always looking for new experiences. She is a bit of a thrill-seeker, and she loves to push herself to the limit. She is also a bit of a free spirit, and she loves to explore new places and try new things
-```
-### Intel Gaudi-2 INT4 Inference
-docker image with Gaudi Software Stack is recommended. More details can be found in [Gaudi Guide](https://docs.habana.ai/en/latest/).
-```python
-import habana_frameworks.torch.core as htcore
-import habana_frameworks.torch.hpu as hthpu
-from auto_round.auto_quantizer import AutoHfQuantizer
-from transformers import AutoModelForCausalLM,AutoTokenizer
-quantized_model_dir = "Intel/Qwen2-7B-int4-inc"
-tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir)
-model = AutoModelForCausalLM.from_pretrained(quantized_model_dir).to('hpu').to(bfloat16)
-text = "下面我来介绍一下阿里巴巴公司，"
-text = "9.8和9.11哪个大？"
-text = "Once upon a time,"
-text = "There is a girl who likes adventure,"
-inputs = tokenizer(text, return_tensors="pt").to(model.device)
-print(tokenizer.decode(model.generate(**inputs, max_new_tokens=50, do_sample=False)[0]))
-##下面我来介绍一下阿里巴巴公司，阿里巴巴公司是1999年9月8日由马云在杭州创立的，阿里巴巴集团主要经营业务包括：淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里
-##9.8和9.11哪个大？ 9.8和9.11哪个大？ 解：9.8＞9.11； 答：9.8大． 阅读下面的文字，完成下列各题。 ①“中国式现代化”是习近平
-##Once upon a time, there was a little girl named Emily who loved to read books. She would spend hours lost in the pages of her favorite stories, imagining herself in the worlds she read about. One day, Emily stumbled upon a book called "The Enchanted Forest
-##There is a girl who likes adventure, and she is always looking for new experiences. She is a bit of a thrill-seeker, and she loves to push herself to the limit. She is also a bit of a free spirit, and she loves to explore new places and try new things
-```
-### Evaluate the model
-pip3 install lm-eval==0.4.2
-```bash
-git clone https://github.com/intel/auto-round
-cd auto-round/examples/language-modeling
-python3 eval_042/evluation.py --model_name "Intel/Qwen2-7B-int4-inc" --eval_bs 16  --tasks lambada_openai,hellaswag,piqa,winogrande,truthfulqa_mc1,openbookqa,boolq,arc_easy,arc_challenge,mmlu,gsm8k,cmmlu,ceval-valid
-```
-| Metric         | BF16   | INT4   |
-| -------------- | ------ | ------ |
-| Avg            | 0.6655 | 0.6624 |
-| mmlu           | 0.6706 | 0.6650 |
-| cmmlu          | 0.8310 | 0.8151 |
-| ceval-valid    | 0.8232 | 0.8053 |
-| lambada_openai | 0.7182 | 0.7254 |
-| hellaswag      | 0.5823 | 0.5758 |
-| winogrande     | 0.7222 | 0.7174 |
-| piqa           | 0.7911 | 0.7905 |
-| truthfulqa_mc1 | 0.3647 | 0.3599 |
-| openbookqa     | 0.3520 | 0.3420 |
-| boolq          | 0.8183 | 0.8168 |
-| arc_easy       | 0.7660 | 0.7643 |
-| arc_challenge  | 0.4505 | 0.4625 |
-| gsm8k 5 shots  | 0.7619 | 0.7710 |
-### Reproduce the model
-Here is the sample command to reproduce the model. We observed a larger accuracy drop in Chinese tasks and recommend using a high-quality Chinese dataset for calibration. However, we did not achieve better accuracy with some public datasets.
-```bash
-git clone https://github.com/intel/auto-round
-cd auto-round/examples/language-modeling
-pip install -r requirements.txt
-python3 main.py \
---model_name  Qwen/Qwen2-7B \
---device 0 \
---group_size 128 \
---nsamples 512 \
---bits 4 \
---iter 1000 \
---disable_eval \
---model_dtype "float16" \
---deployment_device 'auto_round' \
---output_dir "./tmp_autoround"
-```
-## Ethical Considerations and Limitations
-The model can produce factually incorrect output, and should not be relied on to produce factually accurate information. Because of the limitations of the pretrained model and the finetuning datasets, it is possible that this model could generate lewd, biased or otherwise offensive outputs.
-Therefore, before deploying any applications of the model, developers should perform safety testing.
-## Caveats and Recommendations
-Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model.
-Here are a couple of useful links to learn more about Intel's AI software:
-* Intel Neural Compressor [link](https://github.com/intel/neural-compressor)
-* Intel Extension for Transformers [link](https://github.com/intel/intel-extension-for-transformers)
-## Disclaimer
-The license on this model does not constitute legal advice. We are not responsible for the actions of third parties who use this model. Please consult an attorney before using this model for commercial purposes.
-## Cite
-@article{cheng2023optimize, title={Optimize weight rounding via signed gradient descent for the quantization of llms}, author={Cheng, Wenhua and Zhang, Weiwei and Shen, Haihao and Cai, Yiyang and He, Xin and Lv, Kaokao and Liu, Yi}, journal={arXiv preprint arXiv:2309.05516}, year={2023} }
-[arxiv](https://arxiv.org/abs/2309.05516) [github](https://github.com/intel/auto-round)

config.json CHANGED Viewed

@@ -19,10 +19,10 @@
   "quantization_config": {
     "amp": true,
     "autoround_version": "0.3.1.dev",
     "bits": 4,
-    "damp_percent": 0.01,
     "data_type": "int",
-    "desc_act": false,
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
@@ -34,12 +34,11 @@
     "minmax_lr": 0.001,
     "nsamples": 512,
     "quant_block_list": null,
-    "quant_method": "gptq",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
-    "train_bs": 8,
-    "true_sequential": false
   },
   "rms_norm_eps": 1e-06,
   "rope_theta": 1000000.0,

   "quantization_config": {
     "amp": true,
     "autoround_version": "0.3.1.dev",
+    "backend": "auto_round:gptq:exllamav2",
     "bits": 4,
     "data_type": "int",
+    "dataset": "NeelNanda/pile-10k",
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
     "minmax_lr": 0.001,
     "nsamples": 512,
     "quant_block_list": null,
+    "quant_method": "intel/auto-round",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
+    "train_bs": 8
   },
   "rms_norm_eps": 1e-06,
   "rope_theta": 1000000.0,

model.safetensors → model-00001-of-00002.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e862995baefeb5e7281c07fa1011889b579e73bd2d9804faa30034845c1ac70
-size 5573365008

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6270d27d9b30a5188d482980a3ee1b83063d72b7a0a0ea4e246fb8de8364362
+size 4480835000

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1664bad89d5c131fc97e97ee3bc2be957688b75ef512d2f4d1c3c216f09dab38
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,738 @@

+{
+  "metadata": {
+    "total_size": 5570747392
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.qweight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.qzeros": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00001-of-00002.safetensors"
+  }
+}

quantization_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "bits": 4,
   "group_size": 128,
-  "sym": false,
   "data_type": "int",
   "enable_quanted_input": true,
   "enable_minmax_tuning": true,
@@ -13,10 +13,12 @@
   "gradient_accumulate_steps": 1,
   "iters": 1000,
   "amp": true,
-  "n_samples": 512,
   "low_gpu_mem_usage": false,
   "dataset": "NeelNanda/pile-10k",
-  "autoround_version": "0.2.1.dev",
   "quant_method": "intel/auto-round",
-  "backend": "autoround:exllamav2"
 }

 {
   "bits": 4,
   "group_size": 128,
+  "sym": true,
   "data_type": "int",
   "enable_quanted_input": true,
   "enable_minmax_tuning": true,
   "gradient_accumulate_steps": 1,
   "iters": 1000,
   "amp": true,
+  "nsamples": 512,
   "low_gpu_mem_usage": false,
+  "quant_block_list": null,
+  "enable_norm_bias_tuning": false,
   "dataset": "NeelNanda/pile-10k",
+  "autoround_version": "0.3.1.dev",
   "quant_method": "intel/auto-round",
+  "backend": "auto_round:gptq:exllamav2"
 }