metadata

license: apache-2.0
language:
  - zh
library_name: fairseq
tags:
  - BART
  - pytorch
  - CGEC
metrics:
  - bleu
pipeline_tag: translation

中文语法纠错任务介绍

Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC) CGEC任务输入一句中文文本，文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正，输出纠正后的文本。

中文语法纠错方法

主流的方法为seq2seq和seq2edits，常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。

模型描述

我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上，我们使用中文BART作为预训练模型，然后在Lang8和CGED训练数据上进行finetune。在不引入额外资源的情况下，本模型在LANG8测试集上达到了SOTA。

模型训练

模型训练是基于fairseq库进行训练的。

如何使用

step1: 下载fairseq库，并进行安装 step2: 使用interactive.py方法进行推理 python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR
--task syntax-enhanced-translation
--path ${MODEL_PATH}
--beam ${BEAM}
--nbest ${N_BEST}
-s src
-t tgt
--buffer-size 1000
--batch-size 32
--num-workers 12
--log-format tqdm
--remove-bpe
--fp16
--output_file $OUTPUT_DIR/output.nbest
<$OUTPUT_DIR/lang8_test.char