datasets: | |
- wikipedia | |
language: | |
- zh | |
- en | |
tags: | |
- chinese | |
- english | |
widget: | |
- text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種 | |
pipeline_tag: text-generation | |
# Baby LLaMA Chinese 81M | |
一個小型中英文(雙語)預訓練語言模型。 | |
## Training Dataset | |
- 中文維基百科(20230601) | |
- 英文維基百科(20230601) | |
## Tokenizer | |
使用重新在中英文語料上訓練的 BPE Tokenizer,擁有較佳的分詞效果與邊解碼效率。 | |
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki |