neavo commited on
Commit
84ecaa2
·
verified ·
1 Parent(s): 4f61ec4

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -17
README.md CHANGED
@@ -27,41 +27,36 @@ pipeline_tag: fill-mask
27
  | 模型 | 版本 | 说明 |
28
  | :--: | :--: | :--:|
29
  | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20250128 | 基础模型 |
30
- | [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20250131 | 实体识别模型 |
31
 
32
  ### 基础模型 Base
33
 
34
- - 在 [neavo/modern_bert_multilingual](https://huggingface.co/neavo/modern_bert_multilingual) 进行继续预训练
35
- - 继续预训练的训练量大约 1B Token,包含 4 种不同语言的语料
36
- - 训练参数如下:
37
- - Batch Size : 8
38
- - Gradient Accumulation Steps : 32
39
- - Total Batch Size : 256
40
- - Learing Rate : 5e-05
41
- - Maximum Sequence Length : 256
42
  - Optimizer : adamw_torch
43
  - LR Scheduler: warmup_stable_decay
44
- - Warnup Ratio : 0.1
45
- - Train Precision : bf16
46
 
47
  - 使用说明
48
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
49
 
50
  ### 实体识别模型 NER
51
 
52
- - 在 Base 模型的基础上,使用了大约 80000 条合成语料进行 NER 任务的微调
53
  - 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
54
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
55
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
56
  - 训练参数如下:
57
  - Batch Size : 32
58
- - Gradient Accumulation Steps : 1
59
- - Total Batch Size : 32
60
- - Learing Rate : 8e-06
61
  - Optimizer : adamw_torch
62
- - LR Scheduler: warmup_stable_decay
63
  - Warnup Ratio : 0.1
64
- - Train Precision : bf16
65
 
66
  - 使用说明
67
  - 待补充
 
27
  | 模型 | 版本 | 说明 |
28
  | :--: | :--: | :--:|
29
  | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20250128 | 基础模型 |
30
+ | [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20250131 | 预训练实体识别模型 |
31
 
32
  ### 基础模型 Base
33
 
34
+ - 在 [modern_bert_multilingual_nodecay](https://huggingface.co/neavo/modern_bert_multilingual_nodecay) 进行退火得到的模型
35
+ - 训练量大约 1B Token,包含 4 种不同语言的语料
36
+ - 主要训练参数
37
+ - Batch Size : 1792
38
+ - Learing Rate : 5e-04
39
+ - Maximum Sequence Length : 512
 
 
40
  - Optimizer : adamw_torch
41
  - LR Scheduler: warmup_stable_decay
42
+ - Train Precision : bf16 mix
 
43
 
44
  - 使用说明
45
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
46
 
47
  ### 实体识别模型 NER
48
 
49
+ - 在 Base 模型的基础上,使用了大约 100,000 条合成语料进行 NER 任务的微调
50
  - 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
51
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
52
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
53
  - 训练参数如下:
54
  - Batch Size : 32
55
+ - Learing Rate : 6e-06
 
 
56
  - Optimizer : adamw_torch
57
+ - LR Scheduler: cosine
58
  - Warnup Ratio : 0.1
59
+ - Train Precision : bf16 mix
60
 
61
  - 使用说明
62
  - 待补充