update
Browse files
README.md
CHANGED
@@ -1,7 +1,7 @@
|
|
1 |
---
|
2 |
license: other
|
3 |
---
|
4 |
-
# GEB-1.
|
5 |
GEB-1.3B是北京集异璧科技有限公司发布的轻量级语言大模型,拥有13亿参数,由550B中英文tokens数据训练而成。采用了目前较新的训练技术,包括 ROPE位置编码、多组注意力机制和FlashAttention-2,以在加速训练的同时保持模型性能。此外,我们使用了 1000 万条指令数据进行微调,以增强模型的对齐能力,并采用DPO方法更新模型以符合人类偏好。
|
6 |
GEB-1.3B在MMLU、C-Eval和CMMLU等常用基准测试中表现优异,超过了类似同参数级别的模型如TinyLLaMA-1.1B。值得注意的是,GEB-1.3B的FP32版本在CPU上实现了令人满意的推理时间,我们正在通过先进的量化技术进一步提升速度。
|
7 |
|
@@ -32,6 +32,8 @@ query = "你好"
|
|
32 |
response, history = model.chat(tokenizer, query, history=[])
|
33 |
print(response)
|
34 |
```
|
|
|
|
|
35 |
## 协议
|
36 |
|
37 |
GEB-1.3 模型的权重的使用则需要遵循 [LICENSE](LICENSE)。
|
|
|
1 |
---
|
2 |
license: other
|
3 |
---
|
4 |
+
# GEB-1.3B
|
5 |
GEB-1.3B是北京集异璧科技有限公司发布的轻量级语言大模型,拥有13亿参数,由550B中英文tokens数据训练而成。采用了目前较新的训练技术,包括 ROPE位置编码、多组注意力机制和FlashAttention-2,以在加速训练的同时保持模型性能。此外,我们使用了 1000 万条指令数据进行微调,以增强模型的对齐能力,并采用DPO方法更新模型以符合人类偏好。
|
6 |
GEB-1.3B在MMLU、C-Eval和CMMLU等常用基准测试中表现优异,超过了类似同参数级别的模型如TinyLLaMA-1.1B。值得注意的是,GEB-1.3B的FP32版本在CPU上实现了令人满意的推理时间,我们正在通过先进的量化技术进一步提升速度。
|
7 |
|
|
|
32 |
response, history = model.chat(tokenizer, query, history=[])
|
33 |
print(response)
|
34 |
```
|
35 |
+
如果无法下载,请手动clone repo把模型文件下载到本地,并将本地路径替换model和tokenizer的路径。
|
36 |
+
|
37 |
## 协议
|
38 |
|
39 |
GEB-1.3 模型的权重的使用则需要遵循 [LICENSE](LICENSE)。
|