Update README.md
Browse files
README.md
CHANGED
@@ -1,4 +1,4 @@
|
|
1 |
-
#
|
2 |
|
3 |
|
4 |
## 项目简介
|
@@ -64,7 +64,7 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
|
|
64 |
## 数据集
|
65 |
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
|
66 |
|
67 |
-
|
68 |
|
69 |
在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
|
70 |
```json
|
@@ -77,7 +77,8 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
|
|
77 |
|
78 |
训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
|
79 |
|
80 |
-
|
|
|
81 |
|
82 |
|
83 |
|
|
|
1 |
+
# ![firefly_logo](firefly_logo.png) Firefly(流萤): 中文对话式大语言模型
|
2 |
|
3 |
|
4 |
## 项目简介
|
|
|
64 |
## 数据集
|
65 |
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
|
66 |
|
67 |
+
![task_distribution](task_distribution.png)
|
68 |
|
69 |
在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
|
70 |
```json
|
|
|
77 |
|
78 |
训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
|
79 |
|
80 |
+
![len_distribution](len_distribution.png)
|
81 |
+
|
82 |
|
83 |
|
84 |
|