--- license: apache-2.0 language: - zh library_name: fairseq tags: - BART - pytorch - CGEC metrics: - bleu pipeline_tag: translation --- # 中文语法纠错任务介绍 Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC) CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。 # 中文语法纠错方法 主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。 # 模型描述 我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。 在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。 # 模型训练 模型训练是基于fairseq库进行训练的。 # 如何使用 step1: 下载fairseq库,并进行安装 step2: 使用interactive.py方法进行推理 python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \ --task syntax-enhanced-translation \ --path ${MODEL_PATH} \ --beam ${BEAM} \ --nbest ${N_BEST} \ -s src \ -t tgt \ --buffer-size 1000 \ --batch-size 32 \ --num-workers 12 \ --log-format tqdm \ --remove-bpe \ --fp16 \ --output_file $OUTPUT_DIR/output.nbest \ <$OUTPUT_DIR/lang8_test.char