Update README.md
Browse files
README.md
CHANGED
@@ -15,17 +15,20 @@ pipeline_tag: text-generation
|
|
15 |
# 夫子•明察司法大模型
|
16 |
|
17 |
## 模型简介
|
18 |
-
|
|
|
19 |
|
20 |
夫子•明察司法大模型具备如下三大特色:
|
21 |
-
- **基于法条检索回复**
|
22 |
|
23 |
-
- **基于案例检索回复**
|
24 |
|
25 |
- **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
|
26 |
|
|
|
27 |
## 训练数据
|
28 |
-
|
|
|
29 |
|
30 |
以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
|
31 |
|
@@ -60,7 +63,7 @@ pipeline_tag: text-generation
|
|
60 |
|
61 |
</tr>
|
62 |
<tr>
|
63 |
-
<td class="tg-c3ow" rowspan="7"
|
64 |
<td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
|
65 |
<td class="tg-c3ow">自主构建</td>
|
66 |
<td class="tg-9wq8">32k</td>
|
@@ -126,7 +129,7 @@ pipeline_tag: text-generation
|
|
126 |
{
|
127 |
"instruction": "请补充以下法条缺失部分",
|
128 |
"input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
|
129 |
-
"output": "
|
130 |
},
|
131 |
# 根据案情生成相关法条
|
132 |
{
|
@@ -163,10 +166,41 @@ pipeline_tag: text-generation
|
|
163 |
},
|
164 |
```
|
165 |
|
|
|
166 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
167 |
|
|
|
168 |
|
169 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
170 |
|
171 |
<details>
|
172 |
<summary><b>法律咨询</b></summary>
|
@@ -176,7 +210,7 @@ pipeline_tag: text-generation
|
|
176 |
| :--------: | -- |
|
177 |
| 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
|
178 |
| 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
|
179 |
-
| 其他法律模型 |
|
180 |
| ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
|
181 |
</details>
|
182 |
|
@@ -213,7 +247,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
213 |
|
214 |
## 代码调用
|
215 |
|
216 |
-
|
217 |
|
218 |
```ipython
|
219 |
>>> from transformers import AutoTokenizer, AutoModel
|
@@ -231,6 +265,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
231 |
|
232 |
请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
|
233 |
|
|
|
234 |
## 致谢
|
235 |
|
236 |
本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
|
@@ -242,16 +277,15 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
242 |
|
243 |
|
244 |
## 声明
|
|
|
245 |
本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
|
246 |
在涉及第三方代码的使用时,请切实遵守相关的开源协议。
|
247 |
本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
|
248 |
如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
|
249 |
|
250 |
-
|
251 |
## 协议
|
252 |
|
253 |
-
本仓库的代码依照 Apache-2.0 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
|
254 |
-
|
255 |
|
256 |
## 引用
|
257 |
|
@@ -265,4 +299,4 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
265 |
journal={GitHub repository},
|
266 |
howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
|
267 |
}
|
268 |
-
```
|
|
|
15 |
# 夫子•明察司法大模型
|
16 |
|
17 |
## 模型简介
|
18 |
+
|
19 |
+
夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 [ChatGLM](https://github.com/THUDM/ChatGLM-6B) 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。
|
20 |
|
21 |
夫子•明察司法大模型具备如下三大特色:
|
22 |
+
- **基于法条检索回复** 夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。
|
23 |
|
24 |
+
- **基于案例检索回复** 夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似的历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。
|
25 |
|
26 |
- **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
|
27 |
|
28 |
+
|
29 |
## 训练数据
|
30 |
+
|
31 |
+
夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。
|
32 |
|
33 |
以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
|
34 |
|
|
|
63 |
|
64 |
</tr>
|
65 |
<tr>
|
66 |
+
<td class="tg-c3ow" rowspan="7">中文有监督司法微调数据</td>
|
67 |
<td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
|
68 |
<td class="tg-c3ow">自主构建</td>
|
69 |
<td class="tg-9wq8">32k</td>
|
|
|
129 |
{
|
130 |
"instruction": "请补充以下法条缺失部分",
|
131 |
"input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
|
132 |
+
"output": "逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
|
133 |
},
|
134 |
# 根据案情生成相关法条
|
135 |
{
|
|
|
166 |
},
|
167 |
```
|
168 |
|
169 |
+
注:其中我们自主构建的数据集,如三段论推理判决数据集等,将会在近期以论文的形式公开,感谢您的关注和理解。
|
170 |
|
171 |
+
## 效果展示
|
172 |
+
以下为夫子·明察三大特色的效果展示:<br>
|
173 |
+
<details>
|
174 |
+
<summary><b>基于法条检索回复</b></summary>
|
175 |
+
|
176 |
+
![img](images/Response_with_Legal_Search_Case1.png)
|
177 |
+
![img](images/Response_with_Legal_Search_Case2.png)
|
178 |
|
179 |
+
</details>
|
180 |
|
181 |
+
|
182 |
+
<details>
|
183 |
+
<summary><b>基于案例检索回复</b></summary>
|
184 |
+
|
185 |
+
![img](images/Response_with_Case_Retrieval_Case1.png)
|
186 |
+
|
187 |
+
</details>
|
188 |
+
|
189 |
+
|
190 |
+
<details>
|
191 |
+
<summary><b>三段论推理判决</b></summary>
|
192 |
+
|
193 |
+
![img](images/Syllogistic_Inference_Judgment_Case1.png)
|
194 |
+
![img](images/Syllogistic_Inference_Judgment_Case2.png)
|
195 |
+
![img](images/Syllogistic_Inference_Judgment_Case3.png)
|
196 |
+
![img](images/Syllogistic_Inference_Judgment_Case4.png)
|
197 |
+
![img](images/Syllogistic_Inference_Judgment_Case5.png)
|
198 |
+
|
199 |
+
</details>
|
200 |
+
|
201 |
+
|
202 |
+
|
203 |
+
<br>以下为夫子·明察与其他法律大模型、ChatGLM的效果对比:<br>
|
204 |
|
205 |
<details>
|
206 |
<summary><b>法律咨询</b></summary>
|
|
|
210 |
| :--------: | -- |
|
211 |
| 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
|
212 |
| 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
|
213 |
+
| 其他法律模型 | 根据《中华人民共和国公务员法》第X条规定,公务员离开原任职务后,可以在一定期限内从事与原任职务有关的工作,但不得利用原任职务或者职权从事营利活动。因此,政府公务员可以成为企业合伙人,但必须符合上述规定,不能利用原任职务或职权从事营利活动。|
|
214 |
| ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
|
215 |
</details>
|
216 |
|
|
|
247 |
|
248 |
## 代码调用
|
249 |
|
250 |
+
可以通过如下代码调用夫子•明察模型来生成对话:
|
251 |
|
252 |
```ipython
|
253 |
>>> from transformers import AutoTokenizer, AutoModel
|
|
|
265 |
|
266 |
请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
|
267 |
|
268 |
+
|
269 |
## 致谢
|
270 |
|
271 |
本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
|
|
|
277 |
|
278 |
|
279 |
## 声明
|
280 |
+
|
281 |
本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
|
282 |
在涉及第三方代码的使用时,请切实遵守相关的开源协议。
|
283 |
本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
|
284 |
如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
|
285 |
|
|
|
286 |
## 协议
|
287 |
|
288 |
+
本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
|
|
|
289 |
|
290 |
## 引用
|
291 |
|
|
|
299 |
journal={GitHub repository},
|
300 |
howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
|
301 |
}
|
302 |
+
```
|