File size: 1,360 Bytes
bff3859
 
28ceb7d
 
 
6b2d52f
 
 
 
58885e2
 
 
6b2d52f
 
c1d7528
26dc311
 
 
c1d7528
372125e
 
 
a4eb16c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
58885e2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
---
license: apache-2.0
language:
- zh
library_name: fairseq
tags:
- BART
- pytorch
- CGEC
metrics:
- bleu
pipeline_tag: translation
---

# 中文语法纠错任务介绍
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
# 中文语法纠错方法
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
# 模型描述
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
# 模型训练
模型训练是基于fairseq库进行训练的。
# 如何使用
step1: 下载fairseq库,并进行安装
step2: 使用interactive.py方法进行推理
python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \
  --task syntax-enhanced-translation \
  --path ${MODEL_PATH} \
  --beam ${BEAM} \
  --nbest ${N_BEST} \
  -s src \
  -t tgt \
  --buffer-size 1000 \
  --batch-size 32 \
  --num-workers 12 \
  --log-format tqdm \
  --remove-bpe \
  --fp16 \
  --output_file $OUTPUT_DIR/output.nbest \
  <$OUTPUT_DIR/lang8_test.char