FlagBeta commited on
Commit
78e7796
1 Parent(s): b855082

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -7
README.md CHANGED
@@ -14,7 +14,7 @@ Atom-7B完全开源可商用,由Llama中文社区和AtomEcho(原子回声)
14
  模型的部署、训练、微调等方法详见Llama中文社区GitHub仓库:[**Llama2-Chinese**](https://github.com/FlagAlpha/Llama2-Chinese)。
15
 
16
 
17
- ## 中文数据
18
 
19
  | 类型 | 描述 |
20
  | ---------------------------------------------------------- | ------------------------------------------------------------ |
@@ -28,7 +28,7 @@ Atom-7B完全开源可商用,由Llama中文社区和AtomEcho(原子回声)
28
  **我们也欢迎大家在[llama.family](https://llama.family)中贡献自己的数据,您的数据通过审核后会加入模型训练,也将影响模型未来的能力走向。**
29
 
30
 
31
- ## 中文词表
32
 
33
  为了提高中文文本处理的效率,我们针对Llama2模型的词表进行了深度优化。
34
 
@@ -43,19 +43,24 @@ Atom-7B完全开源可商用,由Llama中文社区和AtomEcho(原子回声)
43
  最终,成功地实现了一种既能提高中文处理效率又能保持Llama2原有性能的方法。
44
 
45
 
46
- ## 训练过程
47
 
48
- **模型结构**:基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持4K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
49
 
50
- **FlashAttention-2高效训练**:Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时,内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一,相较于传统的注意力技术(Attention),它拥有更快速的速度以及更加优化的内存占用率。
 
 
 
 
 
 
51
 
52
- **基于NTK的自适应上下文扩展技术**:
53
  - 可在不继续训练模型的情况下支持更长的上下文
54
  - 本项目中模型默认支持4K上下文,利用上述技术可扩展至18K+
55
  - 经过微调可以支持到32K+
56
 
57
 
58
- ## 推理配置
59
  实际应用中,消费级显卡要比专业显卡便宜的多(比如3090相比A10,同样都是24G显存)。
60
 
61
  对于消费级显卡,直接FP32肯定放不下,一般最基本的是FP16,而INT8和INT4量化就很有用,例如:
 
14
  模型的部署、训练、微调等方法详见Llama中文社区GitHub仓库:[**Llama2-Chinese**](https://github.com/FlagAlpha/Llama2-Chinese)。
15
 
16
 
17
+ ## 📝 中文数据
18
 
19
  | 类型 | 描述 |
20
  | ---------------------------------------------------------- | ------------------------------------------------------------ |
 
28
  **我们也欢迎大家在[llama.family](https://llama.family)中贡献自己的数据,您的数据通过审核后会加入模型训练,也将影响模型未来的能力走向。**
29
 
30
 
31
+ ## 📚 中文词表
32
 
33
  为了提高中文文本处理的效率,我们针对Llama2模型的词表进行了深度优化。
34
 
 
43
  最终,成功地实现了一种既能提高中文处理效率又能保持Llama2原有性能的方法。
44
 
45
 
46
+ ## 📈 训练过程
47
 
48
+ **模型结构**
49
 
50
+ 基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持4K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
51
+
52
+ **FlashAttention-2高效训练**
53
+
54
+ Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时,内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一,相较于传统的注意力技术(Attention),它拥有更快速的速度以及更加优化的内存占用率。
55
+
56
+ **基于NTK的自适应上下文扩展技术**
57
 
 
58
  - 可在不继续训练模型的情况下支持更长的上下文
59
  - 本项目中模型默认支持4K上下文,利用上述技术可扩展至18K+
60
  - 经过微调可以支持到32K+
61
 
62
 
63
+ ## 💻 推理配置
64
  实际应用中,消费级显卡要比专业显卡便宜的多(比如3090相比A10,同样都是24G显存)。
65
 
66
  对于消费级显卡,直接FP32肯定放不下,一般最基本的是FP16,而INT8和INT4量化就很有用,例如: