为什么deepseek-v2的代码里面,MLA的实现中,存入past_key_value的依然是key_states和value_states,而不是compressed_kv ? 如果这样岂不是并不能节约kvcache吗?请高人指点。
· Sign up or log in to comment