Update README.md
Browse files
README.md
CHANGED
@@ -9,7 +9,9 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
|
|
9 |
</div>
|
10 |
|
11 |
## 引言
|
12 |
-
|
|
|
|
|
13 |
## 内容导引
|
14 |
| 章节 | 描述 |
|
15 |
|----------------------|-----------------------------|
|
@@ -20,21 +22,21 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
|
|
20 |
| [💯系统效果](#系统效果) | 展示了模型在部分任务上的效果 |
|
21 |
|
22 |
## 模型简介
|
23 |
-
TechGPT-2.0 为 TechGPT-1.0
|
24 |
|
25 |
-
TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0
|
26 |
|
27 |
-
|
28 |
|
29 |
## 模型亮点
|
30 |
-
TechGPT-2.0 在继承了 TechGPT-1.0
|
31 |
-
- 首先,TechGPT-2.0
|
32 |
-
- 其次,TechGPT-2.0
|
33 |
-
- 再次,TechGPT-2.0
|
34 |
-
- 另外,TechGPT-2.0
|
35 |
-
- 最后,TechGPT-2.0
|
36 |
|
37 |
-
总体而言,TechGPT-2.0 在继承了 TechGPT-1.0
|
38 |
|
39 |
## 模型下载与体验
|
40 |
### 下载地址
|
@@ -51,12 +53,12 @@ TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进,其
|
|
51 |
- **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。
|
52 |
- 此外,我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上,请自行下载合并。
|
53 |
|
54 |
-
我们TechGPT-2的两个**7B
|
55 |
|
56 |
### 模型体验
|
57 |
-
|
58 |
|
59 |
-
|
60 |
|
61 |
## 环境部署
|
62 |
### 在华为昇腾 910 NPU 服务器上的环境要求
|
@@ -225,6 +227,7 @@ with torch.no_grad():
|
|
225 |
TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成**更为复杂的嵌套实体识别**,并在**医学、法律领域**展现出优秀的能力,此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
|
226 |
|
227 |
下面展示了TechGPT-2.0 的几个新增能力的样例。
|
|
|
228 |
1. **医学NER**
|
229 |
<table> <colgroup> <col style="width:50%"> <col style="width:50%"> </colgroup> <tr> <td>问题</td> <td>回复</td> </tr>
|
230 |
<tr><td>这句话中是否有实体?如果有,请列举出来。<br/>依据主要病变部位分为下列数型:脊髓型最常见,为脊髓前角细胞受损所致,表现为分布不对称、不规则的弛缓性肌肉瘫痪,四肢多见,下肢尤甚。 </td> <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
|
@@ -381,12 +384,12 @@ TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力
|
|
381 |
</td> </tr>
|
382 |
</table>
|
383 |
|
384 |
-
经过我们的微调,目前TechGPT-2.0对其不知道的问题会直接进行不可回答的回复,对与人类价值观相悖的问题会进行否定回答并给出合理建议。
|
385 |
|
386 |
另外,还需注意,上述结果并非设置为相同的输出长度。在默认输出长度设置下,模型输出的结果偏保守,即很多正确的结果在强制大模型输出更长结果的条件下可以得到,但在默认输出长度设置条件下,这些正确的结果并没有被模型输出;有时也可能因为强制模型输出的长度过长,导致模型过分填充一些无用字符。
|
387 |
|
388 |
## 总结
|
389 |
-
|
390 |
|
391 |
目前,我们对TechGPT的研究也在持续进行中,如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。
|
392 |
|
|
|
9 |
</div>
|
10 |
|
11 |
## 引言
|
12 |
+
随着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了 [TechGPT-1.0](https://github.com/neukg/TechGPT) 大模型。
|
13 |
+
|
14 |
+
在 TechGPT-1.0 基础上,经过几个月的努力,东北大学知识图谱研究组发布功能更全、性能更好的 **TechGPT-2.0** 大模型。TechGPT-2.0 延续了 TechGPT-1.0 以“**知识图谱构建**”与“**智能问答**”为核心的构建目标,在继承 TechGPT-1.0 全部功能的基础上,**对其多项功能进行了增强**,并**扩充了一些新功能**。
|
15 |
## 内容导引
|
16 |
| 章节 | 描述 |
|
17 |
|----------------------|-----------------------------|
|
|
|
22 |
| [💯系统效果](#系统效果) | 展示了模型在部分任务上的效果 |
|
23 |
|
24 |
## 模型简介
|
25 |
+
TechGPT-2.0 为 TechGPT-1.0 基础上的改进版本,其采用华为**昇腾服务器**(4机*8卡-32G 910A)、**华为MindSpore框架**、采用**全量微调**方式训练完成。此次共发布两个7B版本的 TechGPT-2.0 模型,分别为**TechGPT2-Alpaca**、**TechGPT2-Atom**。
|
26 |
|
27 |
+
TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在**医学、法律领域**展现出优秀的能力,并扩充了**地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑**等领域文本的处理能力。TechGPT-2.0 还对**幻觉、不可回答、长文本处理**等问题进行了能力增强。
|
28 |
|
29 |
+
同时,TechGPT-2.0 对部署的硬件要求更低,使用 NVIDIA 4090 单机单卡、或昇腾910A单机单卡就可完成 TechGPT-2.0 模型部署。
|
30 |
|
31 |
## 模型亮点
|
32 |
+
TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进,具有以下几项新增亮点功能:
|
33 |
+
- 首先,TechGPT-2.0 在**医学领域**文本的处理能力取得了显著提升。TechGPT-2.0 在处理医学文本时能够更全面地理解上下文信息,能够对疾病、药物、专业术语等实体的进行更准确识别,还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。
|
34 |
+
- 其次,TechGPT-2.0 能够理解和解释法律文本,包括法规、合同和案例法等。TechGPT-2.0 通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。这使得 TechGPT-2.0 模型在**法律领域**中的应用前景更为广泛,可以用于解决自动化合同审查、法规遵循检查等任务。
|
35 |
+
- 再次,TechGPT-2.0 增强了对**嵌套实体**。的抽取能力。即 TechGPT-2.0 可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。
|
36 |
+
- 另外,TechGPT-2.0 在**幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化**。TechGPT-2.0通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0 能够支持最大长度12K的文本输入,这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。
|
37 |
+
- 最后,TechGPT-2.0 使用**华为昇腾910A服务器**、**华为Mindspore框架**以及Mindformer套件进行开发,采用分布式训练方案,使用服务器数量为4机*8卡(32G),具有更低的部署硬件要求。目前 TechGPT-2.0 的部署在使用**NVIDIA**的显卡并使用float16的情况下显存仅需**15G**,INT8量化下显存占用**8G**,INT4量化下显存仅需**5G**;NVIDIA 4090单机单卡、或昇腾910A单机单卡就可以部署 TechGPT-2.0 模型。
|
38 |
|
39 |
+
总体而言,TechGPT-2.0 在继承了 TechGPT-1.0 的全部特性的同时,**通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力**。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。
|
40 |
|
41 |
## 模型下载与体验
|
42 |
### 下载地址
|
|
|
53 |
- **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。
|
54 |
- 此外,我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上,请自行下载合并。
|
55 |
|
56 |
+
我们TechGPT-2的两个**7B**版本的模型、以及使用**QLora线性插值法**微调的长文本模型都已经在Hugging Face和GitHub上开源,后续在这些模型基础上的改进,也将开源到相同账号,欢迎大家使用并提出宝贵的意见。
|
57 |
|
58 |
### 模型体验
|
59 |
+
我们目前对外提供 TechGPT-1.0 与 TechGPT2-Atom 版本的在线服务:http://techgpt.neukg.com/
|
60 |
|
61 |
+
作为一个学术组织,我们无法长期提供模型的在线服务功能,当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。
|
62 |
|
63 |
## 环境部署
|
64 |
### 在华为昇腾 910 NPU 服务器上的环境要求
|
|
|
227 |
TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成**更为复杂的嵌套实体识别**,并在**医学、法律领域**展现出优秀的能力,此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
|
228 |
|
229 |
下面展示了TechGPT-2.0 的几个新增能力的样例。
|
230 |
+
|
231 |
1. **医学NER**
|
232 |
<table> <colgroup> <col style="width:50%"> <col style="width:50%"> </colgroup> <tr> <td>问题</td> <td>回复</td> </tr>
|
233 |
<tr><td>这句话中是否有实体?如果有,请列举出来。<br/>依据主要病变部位分为下列数型:脊髓型最常见,为脊髓前角细胞受损所致,表现为分布不对称、不规则的弛缓性肌肉瘫痪,四肢多见,下肢尤甚。 </td> <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
|
|
|
384 |
</td> </tr>
|
385 |
</table>
|
386 |
|
387 |
+
经过我们的微调,目前 TechGPT-2.0 对其不知道的问题会直接进行不可回答的回复,对与人类价值观相悖的问题会进行否定回答并给出合理建议。
|
388 |
|
389 |
另外,还需注意,上述结果并非设置为相同的输出长度。在默认输出长度设置下,模型输出的结果偏保守,即很多正确的结果在强制大模型输出更长结果的条件下可以得到,但在默认输出长度设置条件下,这些正确的结果并没有被模型输出;有时也可能因为强制模型输出的长度过长,导致模型过分填充一些无用字符。
|
390 |
|
391 |
## 总结
|
392 |
+
和 TechGPT-1.0 相比,**TechGPT-2.0** 在许多方面进行了改进,新模型具有更强的**知识图谱构建**能力、以及**智能问答**能力。尤其是在**嵌套NER**以及**医学、法律**领域能力的提升,并且模型对**幻觉等边界问题以及长文本问题**的回答也得到了改善。
|
393 |
|
394 |
目前,我们对TechGPT的研究也在持续进行中,如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。
|
395 |
|