File size: 2,694 Bytes
484c961
 
 
 
 
feca2a4
484c961
 
 
 
 
86ad705
61aae40
86ad705
484c961
 
 
b1fae42
 
 
0108dbd
 
b1fae42
 
484c961
 
6e7e0c0
 
acc0579
84ecaa2
484c961
4ffa0ff
484c961
84ecaa2
 
 
 
 
 
8b7888b
 
84ecaa2
8b7888b
c508c6b
 
4ffa0ff
 
 
84ecaa2
b1fae42
 
 
4ffa0ff
8b7888b
84ecaa2
8b7888b
84ecaa2
4ffa0ff
84ecaa2
8b7888b
c508c6b
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
---
language:
- zh
- en
- ja
- ko
pipeline_tag: fill-mask
---

### 前言

- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)

### 综述

- 通过针对性的预训练,本系列模型:
  -`轻小说``游戏脚本``漫画脚本` 等故事性文本内容具有极好的理解能力
  - 特别是 `剑与魔法``超能力战斗``异世界冒险` 等常见的 ACG 题材的故事内容
- AND NSFW IS OK
- 支持多种语言 
  - 目前已针对以下语言进行了预训练:`中文``英文``日文``韩文`
  - 未来计划针对以下语言进行预训练:`俄文`
- 目前我们提供以下预训练模型:

| 模型 | 版本 | 说明 |
| :--: | :--: | :--:|
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20250128 | 基础模型 |
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual)  | 20250131 | 预训练实体识别模型 |

### 基础模型 Base

- 在 [modern_bert_multilingual_nodecay](https://huggingface.co/neavo/modern_bert_multilingual_nodecay) 进行退火得到的模型
- 训练量大约 1B Token,包含 4 种不同语言的语料
- 主要训练参数
  - Batch Size : 1792
  - Learing Rate : 5e-04
  - Maximum Sequence Length : 512
  - Optimizer : adamw_torch
  - LR Scheduler: warmup_stable_decay
  - Train Precision : bf16 mix
  
- 使用说明
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用

### 实体识别模型 NER

- 在 Base 模型的基础上,使用了大约 100,000 条合成语料进行 NER 任务的微调
- 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
- 训练参数如下:
  - Batch Size : 32
  - Learing Rate : 6e-06
  - Optimizer : adamw_torch
  - LR Scheduler: cosine
  - Warnup Ratio : 0.1
  - Train Precision : bf16 mix

- 使用说明
  - 待补充

### 其他
- 训练脚本 [Github](https://github.com/neavo/KeywordGachaModel)