这模型可以用 vllm-gptq 这个分支部署推理嘛?
我之前尝试量化了一个3bit模型,vllm-gptq 这个分支提示仅支持 E8P12 类型,3bit量化对应的为 E8P12RVQ3B, 这个能用 vllm-gptq 这个分支 进行部署推理嘛?
According to the README.md and the code link, Qwen1.5-32B-Chat-quip-3bit is not supported. Right?
https://github.com/Minami-su/vllm-gptq/blob/gptq_hf/vllm/model_executor/layers/quantization/quip.py
抱歉这个我没注意到,2bit可以使用,3bit不能使用
抱歉这个我没注意到,2bit可以使用,3bit不能使用
感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?
抱歉这个我没注意到,2bit可以使用,3bit不能使用
感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?
啊?怎么合一下就能正常推理了?给个GitHub fork看看大佬
抱歉这个我没注意到,2bit可以使用,3bit不能使用
感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?
数据集是我自己的合成数据
抱歉这个我没注意到,2bit可以使用,3bit不能使用
感谢回复!合一下3bit代码,也倒是可以正常推理;另外还有个问题请教下,你这里量化模型时采用的校准数据集是哪个呀?
啊?怎么合一下就能正常推理了?给个GitHub fork看看大佬
不好意思,没注意消息。你把 chu-tianxiang 大佬 https://github.com/chu-tianxiang/QuIP-for-all 项目中3bit的代码,照着2bit的推理实现,直接放到vllm中即可,注意修改下参数的配置、调用关系