llama-chinese-81M / README.md
p208p2002's picture
Update README.md
d2c1871
|
raw
history blame
520 Bytes
metadata
datasets:
  - wikipedia
language:
  - zh
  - en
tags:
  - chinese
  - english
widget:
  - text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種
pipeline_tag: text-generation

LLaMA Chinese 120M

一個小型中英文(雙語)預訓練語言模型。

Training Dataset

  • 中文維基百科(20230601)
  • 英文維基百科(20230601)

Tokenizer

使用重新在中英文語料上訓練的 BPE Tokenizer,擁有較佳的分詞效果與邊解碼效率。

https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki