tokenizer的vocab_size是39408, 而 config.json 里面的 vocab_size 是 39424, 哪里有问题呢?

#5
by tanguofu - opened
Fengshenbang-LM org

https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/22

请看这个讨论。训练框架为了模型并行(要切vocab embedding成mp整数倍)会补 dummy token 成 39424。

Sign up or log in to comment