YeungNLP commited on
Commit
4f50e73
1 Parent(s): 37d586a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -3
README.md CHANGED
@@ -1,4 +1,4 @@
1
- # <img src="firefly_logo.png" width="40"> Firefly(流萤): 中文对话式大语言模型
2
 
3
 
4
  ## 项目简介
@@ -64,7 +64,7 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
64
  ## 数据集
65
  我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
66
 
67
- <img src="task_distribution.png" width="480">
68
 
69
  在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
70
  ```json
@@ -77,7 +77,8 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
77
 
78
  训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
79
 
80
- <img src="len_distribution.png" width="480">
 
81
 
82
 
83
 
 
1
+ # ![firefly_logo](firefly_logo.png) Firefly(流萤): 中文对话式大语言模型
2
 
3
 
4
  ## 项目简介
 
64
  ## 数据集
65
  我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
66
 
67
+ ![task_distribution](task_distribution.png)
68
 
69
  在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
70
  ```json
 
77
 
78
  训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
79
 
80
+ ![len_distribution](len_distribution.png)
81
+
82
 
83
 
84