Seikaijyu's picture
Update README.md
770e304 verified
|
raw
history blame
No virus
2.75 kB
metadata
license: mit

模型说明

基于RWKV6-v2.1-3B 基模微调的超小审查模型,模型基于基于GLM4的自制语料进行pissa微调,并微调了embedding层

此模型用于审查文本中是否存在色情,涉政,不安全和辱骂内容

因此模型参数量较少,非常适合进行本地文本审查,推荐使用ai00对此模型进行转换后推理并使用Python调用此模型api进行内容审查(ai00项目的README.md有调用模型例子)

效果如下:

image/png

image/png

image/png

image/png

image/png

规则说明

misjudgment代表判断色情内容或者政治内容或者辱骂内容或者其它不安全内容误判的可能性,也就是错误判断的可能性,不可能误判则必须为0,极可能误判则为3。

misjudgment: 0 代表没有误判

misjudgment: 1 代表有轻微概率可能误判

misjudgment: 2 代表不确定是否误判

misjudgment: 3 大概率可能误判

level代表判断存在的色情内容或者政治内容或者辱骂内容或者其它不安全内容的严重程度,不存在并且不涉及任何相关内容则必须为0,最严重则为3。

level: 0 不存在并且不涉及任何相关内容

level: 1 涉及相关内容但是没有进行更细致的讨论

level: 2 讨论并涉及相关内容但是情节不严重

level: 3 讨论并涉及相关内容并且情节非常严重

当模型输出的对应misjudgment参数为0-1时,并且对应的level大于等于2,则结果基本可信。

当模型输出的对应misjudgment参数为1时,并且对应的level大于等于2,则结果必然可信。

当模型输出的对应misjudgment参数为2时,则结果不太可信。

当模型输出的对应misjudgment参数为1时,并且对应的level等于1,则结果不太可信。

政治审查最好都信,原因...你懂的

额外说明

对话推荐使用以下格式,否则模型可能会直接回复提问,即:

Question:
Answer: ```
需要审查的文本内容
```

推荐参数如下:

Temperature=0

Top_P=0

Presence Penalty=0

Frequency Penalty=1