**摘要:**本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。
GEC在NLP中是具有挑战性的任务,它也受到了越来越多的关注。今年,我们组织了第一次中文语法纠错任务,众多关注中文学习者的语法错误。具体的说,我们的任务是监检测非母语学者写的文章中的语法错误,并修正。之前对于中文语法错误的研究只要集中在错误检测,二我们共同的任务还包括自动纠正这些语法错误。尽我们所能,我们为这个中文GEC任务提供了第一个基准数据。
该任务的目标是开发一个工具去自动检测并纠正在学习中文的CSL(以中文为第二语言Chinese as a Second Language)。我们提供了一个大规模的非母语学者写的中文文章,其中的错误已被母语学者注释,并修正。使用统一的评测工具与评测指标以及盲测数据用于测评参与团队的结果。
一共有23支队伍报名了任务,只有6支队伍提交了他们的结果。这份综述文章详细说明了这个任务,并按以下内容展开:第二节给出了任务的定义;第三节详细介绍了数据集以及注释标准;第四节提供了评价指标;第五节结束了来自参与者的不同方法;第六届展示了最终的结果;第七节给出了综述的结论。
自动纠正语法错误是一项具有挑战性的任务,也越来越受关注。任务的而目标是检测并纠正有非母语学者书写的中文文章。对于带有语法错误更正和盲测数据的注释性训练数据,参赛团队应提交测试数据中自动更正的文本版本。表1显示了任务定义下的错误量词示例。
初始输入 | 那是一个牛 。 |
---|---|
分词输入 | 那 是 一 个 牛 。 |
输出 | 那是一头牛。 |
输出 | 那 是 一 头 牛 。 |
这节介绍了此任务发布的训练、测试数据
训练数据从http://lang-8.com/收集,这是一个语言学习网站,以英语为母语的人可以自由选择修改学习者的文章。我们通过探索“语言交换”社交网络服务(SNS),收集了一个大规模的汉语普通话学习者语料库。在这个SNS网站上大约有68500名中国普通话学习者。通过收集他们的中文论文和中国本地人的修订版,我们初步建立了一个语料库,从135754篇论文中收集了1108,907个句子。
由于修正规范不统一,原始语句中存在大量噪声,我们采取了一系列措施来清理数据。首先,我们删除被
通过以上的整理工作,我们最终整理出了一个由61个不同母语作家的717241个句子组成的汉语学习者语料库。在这些句子中,有123,501个句子被认为是正确的,300004个句子,一个改正,170407个句子有两次更正,一个句子最多更正21次。例句如表2所示。此外,我们使用PKUNLP工具(http://www.icst.pku.edu.cn/lcwm/pkunlp/downloads/libgrass-ui.tar.gz)进行中文分词。
初始句子 | 纠正句子 |
---|---|
长成大人,我盒饭做的很开心。 | 长大成人后,我做盒饭做的很开心。 |
城市里的人能度过多方面的生活 | 城市里的人能过丰富多彩的生活 |
城市里的人能过多方面的生活 | |
城市里的人能过多种多样的生活 |
测试数据提取自北大汉语学习者语料库。北京大学中国学习者语料库由中国语言文学系建设,目标是促进国际教育和汉语中介语言的研究。它是由外国大学生写的论文组成的。我们从语料库中收集了2000个句子,并发布了源句和分段句。
为了纠正语法错误,两个注释员对这些句子进行了注释。注释准则遵循最小化的一般原则编辑距离。这一原则规定了如何重建一个含有错误的句子的正确形式,并选择一个最小化编辑距离的句子,这意味着我们选择尽可能地遵循作者的初衷。错误分为四种类型:冗余词(以大写字母“R”表示)、缺词(“M”)、选词错误(“S”)和排序错误(“W”)。第一个注释者只标记编辑,第二个注释者被要求检查注释并在他认为当前编辑不合适时进行修改。我们发布了两种黄金注释及其集成的评估结果。
我们使用MaxMatch (M2)记分器进行评估。M2算法是一种广泛应用的语法纠错评价方法。总的思路是计算源语句和系统输出之间的短语级编辑。具体来说,它将选择与注释器中的黄金编辑重叠最多的系统假设。扩展了M2的记分器,以处理多组可选的金标准注释,在这种情况下,对于当前的句子有多个合理的更正。
假设黄金编辑集是{g1, g2,…, gn},系统编辑集为{e1, e2,…,}。精度、查全率和F0.5定义如下:
以图1中的句子为例,假设源句为"随着通迅技术的发达我们的生活也是越来越放便。"黄金编辑集g和系统编辑集e如图所示
然后就会有P = 1, R = 2/3, F0.5 = 10/11.
共有6支队伍提交了18份参赛作品,每队最多3份。参与者的详细信息如表3所示。
大多数系统将GEC问题视为机器翻译(MT)任务。还探讨了基于规则的模型和语言模型。AliGM针对这个问题提出了两个模块:校正模块和组合模块。在前一模块中,每个输入句子用两个统计模型和一个神经模型生成校正候选词。统计模型包括基于规则的模型和基于统计机器翻译(SMT)的模型。神经模型是基于神经机器翻译(NMT)的模型。在后一模块中,它们以分层的方式组合这些模型。CU-Boulder使用Bi-LSTM模型,并注意进行校正。使用字符级最小编辑距离(MED)在多个候选文本中选择校正版本。实现五种模式的联合投票,提高性能。有道也将此问题转换为机器翻译任务。值得注意的是,他们使用分阶段的方法,并针对特定的错误(包括拼写、语法等)设计特定的模块。北京邮电大学采用两阶段法。在第一阶段,他们采用神经模型进行误差检测。在第二阶段,他们使用的统计方法如下,北大使用基于字符的MT模型来处理这个问题。此外,他们还提出了一个用于纠正拼写错误的预处理模块。首先,基于共现概率、互信息和卡方检验等二元特征进行误差检测。然后引入混淆集,在检测点生成候选项。最后的修正是语言模型概率最高的候选。为了提高精度分数,他们设置了一个较高的阈值。此外,他们在后期处理阶段用置信水平检查每次修正。BLCU[9]提出了一个主要基于卷积的序列-序列模型的系统。
我们对所有18个提交的关于两种黄金注释及其集成的评估。参考集成金标准编辑的每个系统的最佳性能如表4所示。从表4可以看出,汉语语法纠错是一项具有挑战性的任务。在自动化之间仍然有很大的差距,GEC系统和母语人士。其中,有道的召回率,F0.5分最高,BLCU准确度得分最高。这两个系统都将GEC问题视为MT任务。相比之下,基于规则的模型和语言模型的表现并不令人满意。
本文对2018年NLPCC中的语法纠错(GEC)共享任务进行了概述。我们发布了一个大型的汉语学习者语料库,并简要介绍了参与者的方法。最后的结果表明,这仍然是一个具有挑战性的任务,值得更多的关注。
Acknowledgement。这项工作得到了国家自然科学基金(61772036、61331011)和国家科技重点实验室的支持,新闻行业标准(智能媒体技术重点实验室)。我们感谢北京大学中文系提供了原始的测试数据输入。孙伟伟是通讯作者。