16k上下文什么时候出?
#37
by
jackies
- opened
16k上下文什么时候出?
修改 config.json:
"rope_scaling": {
"type": "dynamic",
"factor": 4.0
},
即可获得32k
修改 config.json:
"rope_scaling": {
"type": "dynamic",
"factor": 4.0
},即可获得32k
32K单卡4090提示kv cache不足。怎么增加kv cache?或者说要改成16K,配置中参数如何减少?
那应该是推理引擎的事了,跟模型无关。