您好,add_token.json内容和models不匹配,这个应该怎么修改
#22
by
redauzhang
- opened
实际词表 39410,config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行(需被128整除)自动给 embedding 增加了 dummy token ,这部分参数没有意义。
具体怎么修改需要看下 llama.cpp 脚本,可以尝试加 added_token 到 39424,或者如果没有类似需要切分补全的操作,在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.
相关 issue 可能有用 https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/5
实际词表 39410,config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行(需被128整除)自动给 embedding 增加了 dummy token ,这部分参数没有意义。
具体怎么修改需要看下 llama.cpp 脚本,可以尝试加 added_token 到 39424,或者如果没有类似需要切分补全的操作,在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.
相关 issue 可能有用 https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/5
好的,你帮了大忙了,我再研究下。
redauzhang
changed discussion status to
closed