这模型可以用 vllm-gptq 这个分支部署推理嘛?

#1
by lich60132 - opened

我之前尝试量化了一个3bit模型,vllm-gptq 这个分支提示仅支持 E8P12 类型,3bit量化对应的为 E8P12RVQ3B, 这个能用 vllm-gptq 这个分支 进行部署推理嘛?

According to the README.md and the code link, Qwen1.5-32B-Chat-quip-3bit is not supported. Right?
https://github.com/Minami-su/vllm-gptq/blob/gptq_hf/vllm/model_executor/layers/quantization/quip.py
image.png

image.png

抱歉这个我没注意到,2bit可以使用,3bit不能使用

抱歉这个我没注意到,2bit可以使用,3bit不能使用

感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?

抱歉这个我没注意到,2bit可以使用,3bit不能使用

感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?

啊?怎么合一下就能正常推理了?给个GitHub fork看看大佬

抱歉这个我没注意到,2bit可以使用,3bit不能使用

感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?

数据集是我自己的合成数据

抱歉这个我没注意到,2bit可以使用,3bit不能使用

感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?

啊?怎么合一下就能正常推理了?给个GitHub fork看看大佬

不好意思,没注意消息。你把 chu-tianxiang 大佬 https://github.com/chu-tianxiang/QuIP-for-all 项目中3bit的代码,照着2bit的推理实现,直接放到vllm中即可,注意修改下参数的配置、调用关系

Sign up or log in to comment