LM-Combiner:通过模型改写实现更精准的语法纠错
作者: AINLP 来源: AINLP
论文名称:LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction
论文作者:王一轩,王宝鑫,刘议骏,伍大勇,车万翔*
原创作者:王一轩
出处:哈工大SCIR
####1.背景
语法纠错(GEC)是一个形式简单但充满挑战的任务[1],旨在识别并纠正输入文本中的常见语法错误。作为一个基础自然语言处理任务,语法纠错相关技术具有广泛的应用场景,如:写作助手[2]、语音识别(ASR)后处理、搜索引擎等。现有的校对模型通过基于神经翻译的序列到序列建模技术,已经能够解决一些常见的语法错误。然而受到语料匮乏、暴露偏差等因素影响[3],仍然会做出许多过度纠正。如图1所示,过度纠正即模型将原本正确的段落修改为其他正确的段落,大量过度纠正会严重影响校对系统的精确率以及用户的使用体验。
图1 校对系统过度纠正的例子(其中红色代表存在语法错误,蓝色代表过度纠正,绿色代表正确纠正)
由于中文语法错误的复杂性(不同于英文中大量的拼写错误,包含更多的语法语义级别错误)以及高质量语料的缺乏,中文语法纠错任务的难度更大,且面临更加严重的过度纠正问题。目前主流的解决方法主要采用模型集成的方式对过度纠正进行过滤[4],这些方法通过对不同训练策略得到多个校对系统的输出进行投票,仅保留多数模型认定的编辑操作,以此来缓解随机性较强的过度纠正。此外,Tang等人[3]提出采用预训练语言模型(GPT2)的困惑度(PPL)对多个系统输出进行组合投票,来完成更细粒度的集成。上述方法虽然均能有效提高最终校对结果的精确率(更少的过度纠正),但是通常需要更多的计算资源来部署多个校对模型,并且由于模型集成不可避免的面临错误召回率(Recall)的损失。
基于上述情况,本文提出了一种改写模型LM-Combiner,能够通过改写单一校对系统的输出来过滤其中的过度纠正现象;同时由于经过针对性训练,对过度校对错误判断更准确,能够保证改写后的输出错误召回率保持不变。此外,通过详细的消融实验,我们还发现改写模型对模型大小和训练数据的要求并不高,仅通过base级别的模型已经10K级别的训练集就可以很好的学习到改写任务,可以以很低的成本缓解白盒或黑盒(如ChatGPT)校对系统中存在的过纠现象。
####2.方法
####伪数据生成
####****
我们提出的改写模型在系统中应用的主要流程如图2所示。其中GEC system为任意其他校对系统(如Bart-large-Chinese)。在训练阶段,我们先通过k-折交叉推理的方式为该GEC系统在当前平行语料上构造包含过度纠正的候选句,随后我们使用错误句、候选句、正确句三句对的形式对改写模型LM-Combiner进行训练,使其能够根据原句和候选句生成正确的句子;在推理阶段,我们直接将原句和当前GEC系统的输出合并作为LM-Combiner的输入,即可得到过滤过纠错误的句子。下面我们从模型层面设计和数据层面设计分别阐述LM-Combiner的实现细节。
图2 LM-Combiner在训练和推理阶段的框架示意图
####模型层面设计
同样使用预训练语言模型,LM-Combiner改写过程相较于前人基于PPL的打分排序方法对比如图3所示。先前的方法采用冻结的预训练模型PPL可能会受到词频等因素的影响作出错误的判断,LM-Combiner在GPT2的基础上进行有监督微调,能更清晰的掌握过度纠正的特征进行改写,保留尽可能多的正确纠正。
图3 LM-Combiner与前人基于PPL排序方法的对比图
具体实现上,LM-Combiner模型的输入可以被表示为:
其中
其中i,j为目标结果的索引下标,相较于传统端到端语法纠错模型,LM-Combiner的区别在于输入端加入了包含正确纠正和过度纠正的候选句,模型通过训练得到区分二者的能力。因此可以说的质量对改写系统效果有着决定性影响,下面我们从数据层面介绍的构造设计思路。**
####数据层面设计
为了获得和真实分布更加一致的候选句,我们设计了一套过度纠正数据集构建方法,主要分为过度纠正句的生成以及真实标签的融合。
过度纠正句生成 为了得到大规模的过度纠正训练集,我们根据现有的平行语料数据集进行构建,为每个正确、错误句对构建一个包含过度纠正的候选句。先前的方法主要使用在对应数据集训练的校对模型采用调整温度的概率采样[5]进行构造,但是由于构造的样本已经参与模型训练,会影响过度纠正错误的分布。本文提出了一种K-折交叉推理的方法进行候选句的构造,算法如算法1所示。为了避免模型因训练过后作出和正确标签一致的判断,我们将目前平行语料分为K份,分别采用K-1份进行训练,在剩余一份进行推理。这样得到的候选句和真实数据上分布更一致,也能更高效的获取高质量过度纠正错误。我们将K设置为4进行实验。特别地,对于黑盒系统(如ChatGPT),我们无需考虑其是否在原始平行语料训练带来的影响,直接进行推理采样即可得到包含大量过度纠正的候选句。
算法1 K-折交叉推理算法
真实标签融合 由上述方法构造的候选句并不能保证对原句中的全部错误进行纠正,这样会导致改写模型的学习目标中仍有纠错任务。为了彻底解耦纠错任务和改写任务,我们通过ERRANT工具对编辑标签进行提取,并将真实标签融入候选句中。真实标签的融合使得候选句中包含全部的正确纠正和错误纠正,改写模型只需要学习如何筛选过纠标签即可。
####3.实验部分
####数据集&评测指标
先前的中文语法纠错任务受限于数据集,主要聚焦于非母语者语料。Tang等人[3]通过人工检查的方式发现非母语者标注数据集和真实错误存在一些分布偏差。分析为了验证我们方法的有效性,我们采用源于高考选择题的中文母语者语法纠错数据集FCGEC[6]进行实验,相较于非母语者数据集,FCGEC中包含更高质量且难度更大的语法错误。其中包括36,340句训练数据,2,000句验证数据,3,000句测试数据。
参照前人工作,我们使用CHERRANT计算编辑标签的P、R、F0.5指数作为评价模型的指标。
####主实验结果
我们选择了错误召回率最高的Bart模型作为基线模型进行改写。为了公平对比,我们复现了单一校对系统输出下不同粒度的基于PPL的打分排序方法(Sentence-level、Edit-level以及Edit-combination)作为对比方法。主实验结果如表1所示,我们提出的LM- Combiner方法能够有效提高原始GEC系统的精确率(P),过滤更多的过度纠正。同时和其他基于静态PPL的方法相比,我们的方法能够保留原先系统更多的错误召回率,实现更精准的过度纠正判别。
表1 FCGEC主实验结果
####关于模型规模影响的分析实验
为了探究模型规模是否对LM-Combiner改写性能有影响,我们采用了不同规模的GPT2(small、base、medium、large、xlarge)进行实验。实验结果如表2所示,可以看到通过解耦的改写任务在small级别就有很好的表现(有效改善过度纠正且错误召回率轻微下降),在base级别就可以达到最优性能,可以作为一个轻量化的后处理插件用于其他GEC系统。
表2 关于模型规模对改写结果影响的实验结果
####关于数据规模影响的分析实验
我们还针对训练数据的规模进行了分析实验,我们采用了从1,000到32,000不等的训练数据对LM-Combiner进行训练。实验结果如表3所示,改写任务对于数据的需求量远不及纠错任务,可以看到在10k左右的数据量下模型已经可以达到很好的改写效果。
表3 关于数据规模对改写结果影响的实验结果
####关于真实标签合并机制的消融实验
为了探究真实标签融合对改写模型的影响,我们进行了对应的消融实验。实验结果如表4所示,可以看到通过真实标签合并,能够完全解耦纠错任务和改写任务,从而让改写模型更好的学习过度纠正本身的判断,从而得到性能上的提升。
表4 关于真实标签合并的消融实验结果
####4.总结
在这项工作中,我们提出了一种用于缓解目前GEC系统过度纠正现象的改写模型LM-Combiner。通过在K-折交叉推理构造的过度纠正数据集上进行训练,改写模型能够很好的识别其中的过度纠正错误并进行过滤筛选。实验表明,我们提出的改写模型相较于前人模型集成的工作能够在提升精确率的同时更好的保存先有系统的错误召回率。同时改写模型对模型规模和训练数据规模的需求并不大,可以作为一种经济高效的后处理方案。
####参考文献
[1] Bryant C, Yuan Z, Qorib M R, et al. Grammatical error correction: A survey of the state of the art[J]. Computational Linguistics, 2023, 49(3): 643-701.
[2] Omelianchuk K, Atrasevych V, Chernodub A, et al. GECToR–grammatical error correction: tag, not rewrite[J]. arXiv preprint arXiv:2005.12592, 2020.
[3] Tang C, Wu X, Wu Y. Are Pre-trained Language Models Useful for Model Ensemble in Chinese Grammatical Error Correction?[J]. arXiv preprint arXiv:2305.15183, 2023.
[4] Zhang Y, Li Z, Bao Z, et al. Mucgec: a multi-reference multi-source evaluation dataset for chinese grammatical error correction[J]. arXiv preprint arXiv:2204.10994, 2022.
[5] Cao H, Yang W, Ng H T. Grammatical error correction with contrastive learning in low error density domains[C]//Findings of the Association for Computational Linguistics: EMNLP 2021. 2021: 4867-4874.
[6] Xu L, Wu J, Peng J, et al. FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction[J]. arXiv preprint arXiv:2210.12364, 2022.
本期责任编辑:车万翔
本期编辑:孙洲浩
进技术交流群请添加AINLP小助手微信(id: ainlp2)
请备注具体方向+所用到的相关技术点
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。
![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
更多AI工具,参考Github-AiBard123,国内AiBard123