YeungNLP commited on
Commit
1407a95
1 Parent(s): 4f50e73

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -7
README.md CHANGED
@@ -1,8 +1,8 @@
1
- # ![firefly_logo](firefly_logo.png) Firefly(流萤): 中文对话式大语言模型
2
-
3
 
4
  ## 项目简介
5
  项目地址:[Firefly(流萤):中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
 
6
 
7
  **Firefly(流萤)** 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。
8
  在训练中,我们使用了更小的模型参数量,以及更少的计算资源。
@@ -63,9 +63,7 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
63
 
64
  ## 数据集
65
  我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
66
-
67
  ![task_distribution](task_distribution.png)
68
-
69
  在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
70
  ```json
71
  {
@@ -76,12 +74,9 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
76
  ```
77
 
78
  训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
79
-
80
  ![len_distribution](len_distribution.png)
81
 
82
 
83
-
84
-
85
  ## 训练细节
86
 
87
  在训练时,对于每条样本,我们将input与target处理成如下格式,然后输出模型中。
 
1
+ # Firefly(流萤): 中文对话式大语言模型
 
2
 
3
  ## 项目简介
4
  项目地址:[Firefly(流萤):中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
5
+ ![firefly_logo](firefly_logo.png)
6
 
7
  **Firefly(流萤)** 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。
8
  在训练中,我们使用了更小的模型参数量,以及更少的计算资源。
 
63
 
64
  ## 数据集
65
  我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
 
66
  ![task_distribution](task_distribution.png)
 
67
  在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
68
  ```json
69
  {
 
74
  ```
75
 
76
  训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
 
77
  ![len_distribution](len_distribution.png)
78
 
79
 
 
 
80
  ## 训练细节
81
 
82
  在训练时,对于每条样本,我们将input与target处理成如下格式,然后输出模型中。