Upload README_CN.md with huggingface_hub
Browse files- README_CN.md +61 -6
README_CN.md
CHANGED
@@ -24,7 +24,7 @@ tags:
|
|
24 |
</div>
|
25 |
<div align="center">
|
26 |
🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
|
27 |
-
🤖 <a href="https://
|
28 |
💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
|
29 |
</div>
|
30 |
<br>
|
@@ -71,14 +71,17 @@ token,第二阶段我们加⼤了⾼质量数据的占⽐,训练了100B⾼
|
|
71 |
本次发布版本和下载链接见下表:
|
72 |
| Size | Model | BF16 | Int4|
|
73 |
|:-:|-|:-:|:-:|
|
74 |
-
| 7B | 360Zhinao2-7B-Base | <a href="https://
|
75 |
-
| 7B | 360Zhinao2-7B-Chat-4K | <a href="https://
|
76 |
-
| 7B | 360Zhinao2-7B-Chat-32K | <a href="https://
|
77 |
-
| 7B | 360Zhinao2-7B-Chat-360K | <a href="https://
|
78 |
|
79 |
<br>
|
80 |
|
81 |
# 模型评估
|
|
|
|
|
|
|
82 |
我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
|
83 |
360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
|
84 |
考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
|
@@ -169,7 +172,59 @@ benchmark均分排名第⼀。在挑战性的竞赛数学数据集math上,同
|
|
169 |
</tr>
|
170 |
</table>
|
171 |
|
172 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
173 |
|
174 |
# 快速开始
|
175 |
简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
|
|
|
24 |
</div>
|
25 |
<div align="center">
|
26 |
🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
|
27 |
+
🤖 <a href="https://modelscope.cn/organization/360zhinao">ModelScope</a>   |   
|
28 |
💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
|
29 |
</div>
|
30 |
<br>
|
|
|
71 |
本次发布版本和下载链接见下表:
|
72 |
| Size | Model | BF16 | Int4|
|
73 |
|:-:|-|:-:|:-:|
|
74 |
+
| 7B | 360Zhinao2-7B-Base | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Base">🤗</a> | |
|
75 |
+
| 7B | 360Zhinao2-7B-Chat-4K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K-Int4">🤗</a> |
|
76 |
+
| 7B | 360Zhinao2-7B-Chat-32K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K-Int4">🤗</a> |
|
77 |
+
| 7B | 360Zhinao2-7B-Chat-360K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K-Int4">🤗</a> |
|
78 |
|
79 |
<br>
|
80 |
|
81 |
# 模型评估
|
82 |
+
|
83 |
+
## 基础模型
|
84 |
+
|
85 |
我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
|
86 |
360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
|
87 |
考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
|
|
|
172 |
</tr>
|
173 |
</table>
|
174 |
|
175 |
+
|
176 |
+
## Chat模型
|
177 |
+
|
178 |
+
### 后训练数据
|
179 |
+
360自有通用微调数据50w,该数据综合考虑各个技能及360垂直业务数据,生成方法如下:
|
180 |
+
1. 数据多样性:根据360自有标签体系进行领域,意图,难度,长度的分层采样,确保指令多样性
|
181 |
+
2. 数据质量:使用开源数据以及自有的偏序数据训练了360gpt-pro-rm(reward bench得分92.59),使用该模型进行样本筛选,过滤response低质数据
|
182 |
+
3. 复杂指令进化:使用进化方式做复杂指令优化,优化指令跟随能力
|
183 |
+
|
184 |
+
### 训练方法
|
185 |
+
1. 全参数微调
|
186 |
+
|
187 |
+
基于通用后训练数据,进行全参数微调,选择最优checkpoint作为sft-base。
|
188 |
+
|
189 |
+
2. Lora offline DPO强化
|
190 |
+
|
191 |
+
使用人类标注好的偏好pair对,采用Lora方法对sft-base进行lora微调,然后进行lora DPO训练。
|
192 |
+
|
193 |
+
3. Iterative on-policy DPO 全参数强化
|
194 |
+
|
195 |
+
使用sft-base模型在训练prompt上采样多个答案,用360gpt-pro-rm打分,取最高最低分组pair进行DPO训练。我们迭代地使用这种on-policy DPO提升模型效果。
|
196 |
+
|
197 |
+
4. 模型合并
|
198 |
+
|
199 |
+
在360公司白盒评测集合4上,针对上述3个模型做自动评测,发现不同模型各有其又是技能,考虑模型合并方案。基于sft模型为base做内插得到模型v1,然后仍以sft模���为base和v1模型进行外插,外插系数0.2 最终得到360Zhicao2-7B-Chat-4k.
|
200 |
+
|
201 |
+
### 模型效果
|
202 |
+
我们在一些经典任务上对 360Zhicao2-7B-Chat-4k 模型进行了评测。IFEval (prompt strict) 仅次于GLM4-9B,7b开源模型最高;MT-bench第3名略差于Qwen2.5-7B,7B模型排名第二;CF-Bench第3,在PSR上仅次于GLM4-9B,详细结果如下表:
|
203 |
+
|
204 |
+
| Model | MT-bench | IFEval(strict prompt) | CFBench(CSR,ISR,PSR) | | |
|
205 |
+
|----------------------|----------|-----------------------|----------------------|------|------|
|
206 |
+
| Qwen2.5-7B-Instruct | **8.07** | 0.556 | **0.81** | 0.46 | 0.57 |
|
207 |
+
| Yi-9B-16k-Chat | 7.44 | 0.455 | 0.75 | 0.4 | 0.52 |
|
208 |
+
| GLM4-9B-Chat | **8.08** | **0.634** | **0.82** | 0.48 | 0.61 |
|
209 |
+
| InternLM2.5-7B-Chat | 7.39 | 0.540 | 0.78 | 0.4 | 0.54 |
|
210 |
+
| 360Zhicao2-7B-Chat-4k| 7.86 | **0.577** | 0.8 | 0.44 | 0.57 |
|
211 |
+
|
212 |
+
|
213 |
+
|
214 |
+
### 长文本微调
|
215 |
+
与360Zhinao1开源时的做法基本一致,我们将RoPE base依次扩大为1000,000和50,000,000,混合长短文本的SFT数据依次拼接至32k和360k,将gradient checkpointing、ZeRO3 offload和ring attention等技术结合,依次微调得到32k和360k长文本模型。在各个32k benchmark上位列第一梯队。
|
216 |
+
|
217 |
+
| Model | LooGLE-长依赖QA | Loong-Set 1 (32k) | LongBench-Chat (32k截断) | LEval-96题子集胜率 | LEval-客观题均分 |
|
218 |
+
|------------------------------|-----------------|-------------------|--------------------------|--------------------|------------------|
|
219 |
+
| GLM4-9B-Chat | 0.36 | 55.24 | 6.60 | 0.49 | 63.96 |
|
220 |
+
| InternLM2.5-7B-Chat | 0.39 | 42.76 | 5.70 | 0.44 | 61.64 |
|
221 |
+
| 360Zhinao2-7B-Chat-32k | 0.33 | 39.37 | 5.44 | 0.44 | 60.48 |
|
222 |
+
| 360Zhinao2-7B-Chat-360k | 0.34 | 32.16 | 5.08 | 0.38 | 53.00 |
|
223 |
+
| Yi-1.5-9B-Chat | 0.25 | 32.77 | 4.70 | 0.37 | 56.22 |
|
224 |
+
|
225 |
+
<br>
|
226 |
+
|
227 |
+
|
228 |
|
229 |
# 快速开始
|
230 |
简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
|