Furyton commited on
Commit
2c7f9e8
1 Parent(s): 09428f2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +47 -13
README.md CHANGED
@@ -15,17 +15,20 @@ pipeline_tag: text-generation
15
  # 夫子•明察司法大模型
16
 
17
  ## 模型简介
18
- 夫子•明察司法大模型由山东大学,浪潮云,中国政法大学联合开发,以ChatGLM为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法领域微调数据(包括法律问答、类案检索、司法领域等)所训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、更精准的法律咨询与解答服务。
 
19
 
20
  夫子•明察司法大模型具备如下三大特色:
21
- - **基于法条检索回复** 夫子•明察大模型能够生成并结合相关法条进行回复。对于用户的咨询,夫子•明察大模型能够使用生成式检索的范式从模型记忆中得到语义相关的法条,再结合数据库进行准确的检索,最终夫子•明察会结合这些法条进行问题分析与回复生成。这保证了系统的回复能够迅速提供与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有权威性与可靠性,可信度高。
22
 
23
- - **基于案例检索回复** 夫子•明察大模型能够基于历史相似案例进行输入案情的分析。同样的,其能够在模型记忆中生成与用户提供的案例信息相似的案件,并将这些类似案例的信息用于辅助生成判决。这种方法使得生成的判决更具有法律依据和合理性。用户可以方便地对照参考类似案例,从而更好地理解潜在的法律风险和案件背景。
24
 
25
  - **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
26
 
 
27
  ## 训练数据
28
- 夫子·明察司法大模型的训练数据主要可分为两大类别:中文无监督司法语料以及有监督司法领域微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。
 
29
 
30
  以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
31
 
@@ -60,7 +63,7 @@ pipeline_tag: text-generation
60
 
61
  </tr>
62
  <tr>
63
- <td class="tg-c3ow" rowspan="7">有监督司法领域微调数据</td>
64
  <td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
65
  <td class="tg-c3ow">自主构建</td>
66
  <td class="tg-9wq8">32k</td>
@@ -126,7 +129,7 @@ pipeline_tag: text-generation
126
  {
127
  "instruction": "请补充以下法条缺失部分",
128
  "input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
129
- "output": "。逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
130
  },
131
  # 根据案情生成相关法条
132
  {
@@ -163,10 +166,41 @@ pipeline_tag: text-generation
163
  },
164
  ```
165
 
 
166
 
 
 
 
 
 
 
 
167
 
 
168
 
169
- <br>以下为夫子·明察与其他司法大模型、ChatGLM的效果对比:<br>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
170
 
171
  <details>
172
  <summary><b>法律咨询</b></summary>
@@ -176,7 +210,7 @@ pipeline_tag: text-generation
176
  | :--------: | -- |
177
  | 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
178
  | 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
179
- | 其他法律模型 | 根据《中华人民共和国公务员法》规定,公务员离开原任职务后,可以在一定期限内从事与原任职务有关的工作,但不得利用原任职务或者职权从事营利活动。因此,政府公务员可以成为企业合伙人,但必须符合上述规定,不能利用原任职务或职权从事营利活动。|
180
  | ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
181
  </details>
182
 
@@ -213,7 +247,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
213
 
214
  ## 代码调用
215
 
216
- 可以通过如下代码调用 ChatGLM-6B 模型来生成对话:
217
 
218
  ```ipython
219
  >>> from transformers import AutoTokenizer, AutoModel
@@ -231,6 +265,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
231
 
232
  请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
233
 
 
234
  ## 致谢
235
 
236
  本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
@@ -242,16 +277,15 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
242
 
243
 
244
  ## 声明
 
245
  本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
246
  在涉及第三方代码的使用时,请切实遵守相关的开源协议。
247
  本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
248
  如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
249
 
250
-
251
  ## 协议
252
 
253
- 本仓库的代码依照 Apache-2.0 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
254
-
255
 
256
  ## 引用
257
 
@@ -265,4 +299,4 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
265
  journal={GitHub repository},
266
  howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
267
  }
268
- ```
 
15
  # 夫子•明察司法大模型
16
 
17
  ## 模型简介
18
+
19
+ 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 [ChatGLM](https://github.com/THUDM/ChatGLM-6B) 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。
20
 
21
  夫子•明察司法大模型具备如下三大特色:
22
+ - **基于法条检索回复** 夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。
23
 
24
+ - **基于案例检索回复** 夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似的历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。
25
 
26
  - **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
27
 
28
+
29
  ## 训练数据
30
+
31
+ 夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。
32
 
33
  以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
34
 
 
63
 
64
  </tr>
65
  <tr>
66
+ <td class="tg-c3ow" rowspan="7">中文有监督司法微调数据</td>
67
  <td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
68
  <td class="tg-c3ow">自主构建</td>
69
  <td class="tg-9wq8">32k</td>
 
129
  {
130
  "instruction": "请补充以下法条缺失部分",
131
  "input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
132
+ "output": "逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
133
  },
134
  # 根据案情生成相关法条
135
  {
 
166
  },
167
  ```
168
 
169
+ 注:其中我们自主构建的数据集,如三段论推理判决数据集等,将会在近期以论文的形式公开,感谢您的关注和理解。
170
 
171
+ ## 效果展示
172
+ 以下为夫子·明察三大特色的效果展示:<br>
173
+ <details>
174
+ <summary><b>基于法条检索回复</b></summary>
175
+
176
+ ![img](images/Response_with_Legal_Search_Case1.png)
177
+ ![img](images/Response_with_Legal_Search_Case2.png)
178
 
179
+ </details>
180
 
181
+
182
+ <details>
183
+ <summary><b>基于案例检索回复</b></summary>
184
+
185
+ ![img](images/Response_with_Case_Retrieval_Case1.png)
186
+
187
+ </details>
188
+
189
+
190
+ <details>
191
+ <summary><b>三段论推理判决</b></summary>
192
+
193
+ ![img](images/Syllogistic_Inference_Judgment_Case1.png)
194
+ ![img](images/Syllogistic_Inference_Judgment_Case2.png)
195
+ ![img](images/Syllogistic_Inference_Judgment_Case3.png)
196
+ ![img](images/Syllogistic_Inference_Judgment_Case4.png)
197
+ ![img](images/Syllogistic_Inference_Judgment_Case5.png)
198
+
199
+ </details>
200
+
201
+
202
+
203
+ <br>以下为夫子·明察与其他法律大模型、ChatGLM的效果对比:<br>
204
 
205
  <details>
206
  <summary><b>法律咨询</b></summary>
 
210
  | :--------: | -- |
211
  | 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
212
  | 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
213
+ | 其他法律模型 | 根据《中华人民共和国公务员法》第X条规定,公务员离开原任职务后,可以在一定期限内从事与原任职务有关的工作,但不得利用原任职务或者职权从事营利活动。因此,政府公务员可以成为企业合伙人,但必须符合上述规定,不能利用原任职务或职权从事营利活动。|
214
  | ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
215
  </details>
216
 
 
247
 
248
  ## 代码调用
249
 
250
+ 可以通过如下代码调用夫子•明察模型来生成对话:
251
 
252
  ```ipython
253
  >>> from transformers import AutoTokenizer, AutoModel
 
265
 
266
  请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
267
 
268
+
269
  ## 致谢
270
 
271
  本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
 
277
 
278
 
279
  ## 声明
280
+
281
  本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
282
  在涉及第三方代码的使用时,请切实遵守相关的开源协议。
283
  本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
284
  如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
285
 
 
286
  ## 协议
287
 
288
+ 本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
 
289
 
290
  ## 引用
291
 
 
299
  journal={GitHub repository},
300
  howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
301
  }
302
+ ```