YeungNLP
/

firefly-bloom-1b4

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YeungNLP commited on Apr 5, 2023

Commit

1407a95

•

1 Parent(s): 4f50e73

Update README.md

Files changed (1) hide show

README.md +2 -7

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
-# ![firefly_logo](firefly_logo.png) Firefly(流萤): 中文对话式大语言模型
 ## 项目简介
 项目地址：[Firefly（流萤）:中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
 **Firefly（流萤）** 是一个开源的中文对话式大语言模型，使用指令微调（Instruction Tuning）在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术，有效降低显存消耗和提高训练效率。
 在训练中，我们使用了更小的模型参数量，以及更少的计算资源。
@@ -63,9 +63,7 @@ Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之
 ## 数据集
 我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万，形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示：
 ![task_distribution](task_distribution.png)
 在此基础上，我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ，最终得到165万的训练数据。每条数据的格式如下，包含任务类型、输入、目标输出：
 ```json
 {
@@ -76,12 +74,9 @@ Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之
 ```
 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：
 ![len_distribution](len_distribution.png)
 ## 训练细节
 在训练时，对于每条样本，我们将input与target处理成如下格式，然后输出模型中。

+# Firefly(流萤): 中文对话式大语言模型
 ## 项目简介
 项目地址：[Firefly（流萤）:中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
+![firefly_logo](firefly_logo.png)
 **Firefly（流萤）** 是一个开源的中文对话式大语言模型，使用指令微调（Instruction Tuning）在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术，有效降低显存消耗和提高训练效率。
 在训练中，我们使用了更小的模型参数量，以及更少的计算资源。
 ## 数据集
 我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万，形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示：
 ![task_distribution](task_distribution.png)
 在此基础上，我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ，最终得到165万的训练数据。每条数据的格式如下，包含任务类型、输入、目标输出：
 ```json
 {
 ```
 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：
 ![len_distribution](len_distribution.png)
 ## 训练细节
 在训练时，对于每条样本，我们将input与target处理成如下格式，然后输出模型中。