Update README.md
Browse files
README.md
CHANGED
@@ -1,5 +1,18 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
# Baby LLaMA Chinese 81M
|
2 |
-
|
3 |
|
4 |
## Training Dataset
|
5 |
- 中文維基百科(20230601)
|
@@ -7,4 +20,4 @@
|
|
7 |
|
8 |
## Tokenizer
|
9 |
使用在中英文維基百科上訓練的 BPE Tokenizer,詞表大小為32k。
|
10 |
-
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
|
|
|
1 |
+
---
|
2 |
+
datasets:
|
3 |
+
- wikipedia
|
4 |
+
language:
|
5 |
+
- zh
|
6 |
+
- en
|
7 |
+
tags:
|
8 |
+
- chinese
|
9 |
+
- english
|
10 |
+
widget:
|
11 |
+
- text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種
|
12 |
+
pipeline_tag: text-generation
|
13 |
+
---
|
14 |
# Baby LLaMA Chinese 81M
|
15 |
+
一個小型中英文(雙語)預訓練語言模型。
|
16 |
|
17 |
## Training Dataset
|
18 |
- 中文維基百科(20230601)
|
|
|
20 |
|
21 |
## Tokenizer
|
22 |
使用在中英文維基百科上訓練的 BPE Tokenizer,詞表大小為32k。
|
23 |
+
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
|