YeungNLP
/

firefly-bloom-1b4

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

YeungNLP commited on Apr 5, 2023

Commit

4f50e73

•

1 Parent(s): 37d586a

Update README.md

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# <img src="firefly_logo.png" width="40">  Firefly(流萤): 中文对话式大语言模型
 ## 项目简介
@@ -64,7 +64,7 @@ Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之
 ## 数据集
 我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万，形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示：
-<img src="task_distribution.png" width="480">
 在此基础上，我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ，最终得到165万的训练数据。每条数据的格式如下，包含任务类型、输入、目标输出：
 ```json
@@ -77,7 +77,8 @@ Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之
 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：
-<img src="len_distribution.png" width="480">

+# ![firefly_logo](firefly_logo.png) Firefly(流萤): 中文对话式大语言模型
 ## 项目简介
 ## 数据集
 我们收集了23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万，形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示：
+![task_distribution](task_distribution.png)
 在此基础上，我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ，最终得到165万的训练数据。每条数据的格式如下，包含任务类型、输入、目标输出：
 ```json
 训练数据集的token长度分布如下图所示，绝大部分数据的长度都小于600：
+![len_distribution](len_distribution.png)