这模型可以用 vllm-gptq 这个分支部署推理嘛？

by lich60132 - opened Jun 13

Jun 13

我之前尝试量化了一个3bit模型，vllm-gptq 这个分支提示仅支持 E8P12 类型，3bit量化对应的为 E8P12RVQ3B，这个能用 vllm-gptq 这个分支进行部署推理嘛？

Jun 13

•

Owner Jun 24

抱歉这个我没注意到，2bit可以使用，3bit不能使用

Jun 24

抱歉这个我没注意到，2bit可以使用，3bit不能使用

感谢回复！合一下3bit代码，也倒是可以正常推理；另外还有个问题请教下，你这里量化模型时采用的校准数据集是哪个呀？

Owner Jun 24

抱歉这个我没注意到，2bit可以使用，3bit不能使用

感谢回复！合一下3bit代码，也倒是可以正常推理；另外还有个问题请教下，你这里量化模型时采用的校准数据集是哪个呀？

啊？怎么合一下就能正常推理了？给个GitHub fork看看大佬

Owner Jun 24

抱歉这个我没注意到，2bit可以使用，3bit不能使用

感谢回复！合一下3bit代码，也倒是可以正常推理；另外还有个问题请教下，你这里量化模型时采用的校准数据集是哪个呀？

数据集是我自己的合成数据

Jul 1

抱歉这个我没注意到，2bit可以使用，3bit不能使用

感谢回复！合一下3bit代码，也倒是可以正常推理；另外还有个问题请教下，你这里量化模型时采用的校准数据集是哪个呀？

啊？怎么合一下就能正常推理了？给个GitHub fork看看大佬

不好意思，没注意消息。你把 chu-tianxiang 大佬 https://github.com/chu-tianxiang/QuIP-for-all 项目中3bit的代码，照着2bit的推理实现，直接放到vllm中即可，注意修改下参数的配置、调用关系

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment