AAAI 2021 | 机器翻译最新进展解读

AAAI 2021 | 机器翻译最新进展解读_第1张图片

作者:李北,王子扬,肖桐

单位:东北大学

机器翻译一直是自然语言处理领域中备受关注的研究方向,从最早期基于规则的机器翻译到如今依托于神经网络端到端的学习语言之间的映射。

目前基于自注意力机制的Transformer模型成为了机器翻译任务的主流模型,在多个公开测试集上取得了最优的翻译性能。研究人员在此基础上根据不同的应用场景及实际需求进行求解,涌现了大量优秀的研究工作。一些技术不仅仅局限于机器翻译任务本身,同样被应用于语言建模,对话,问答,文本摘要等任务,甚至受到了图像、语音领域的广泛关注。

 

在 AAAI2021 上同样涌现了许多关于机器翻译任务的研究工作,几乎所有的工作都是基于Transformer模型展开讨论。这里对机器翻译在AAAI2021上的最新研究进展进行总结:

 

1. 引入语法信息

 

尽管依托于模型本身本文就能从海量数据中捕获到语言之间的映射关系,但研究人员一直在探索如何将句法、语义等先验知识有效地融入到模型中,并指导模型取得进一步的性能突破。传统的做法通常使用外部工具从训练样本中构造句法树等先验知识,之后在编码端、解码端分别融入先验知识。SyntAligner[1]采取一种自监督双语句法对齐方法,让模型在高维空间中对源语-目标语的句法结构进行精确对齐,从而最大限度地利用对齐后的句法结构之间的互信息提高翻译的性能。

 

2. 无监督机器翻译

 

无监督机器翻译同样是机器翻译中备受关注的研究热点。在现实世界中,除了部分富资源语言(如英语,汉语,德语,俄语,印地语等),更多的语言本身受众较小,缺乏海量的双语平行语料进行监督学习。因此,如何在这种资源匮乏,甚至零资源的条件下,学习语言之间的映射是极具挑战的。目前无监督机器翻译通常采用迭代式的back-translation。此外,利用预训练的技术手段能够有效地加快模型的收敛,提高翻译的正确性。[2]通过在构造伪数据的过程中对合成的句子进行正则化约束能够有效地改善翻译的性能。

 

3. 多语言翻译

 

伴随着机器翻译的发展,研究人员逐渐开始探索不局限于双语句对之间的翻译。多语言模型通过一个模型实现多个语种之间的翻译能够有效降低多语言翻译部署成本。同时将一种源语言翻译成多种不同的目标语言是多语言翻译最常见的场景之一。SimNMT[3]提出了一种同步交叉交互解码器,即在每个目标语生成时,可以依赖未来的信息,以及其他目标语言的历史和未来的上下文信息,充分利用语言内与语言间的信息。

 

4. 语音翻译

 

语音翻译直接将源语的语音翻译成目标语言的文本。传统的方法中,采用语音识别和机器翻译级联的方法来解决这一问题。但是具有延迟高,占用存储大,以及容易产生错误累积的问题,很多工作开始关注直接使用端到端的语音到文本的模型来解决这一问题。对于跨模态之间的语言映射,为了让单一的模型充分学习模态之间的关联信息,往往需要引入更多的跨模态和跨语言的特征,造成了沉重的负担,同时单纯的用于端到端模型的语音到文本数据较少,无法充分利用语言识别和机器翻译的数据。为了解决这些问题,COSTT[4]作为一种通用的框架同时结合了级联模型与端到端模型的优点,能够更好地利用大规模双语平行语料,在多个测试集上取得了最优的效果。

 

同声传译是一种实时的语言翻译场景,对翻译时延的要求更加严格。目前主流的手段是采用Wait-K策略,但仍然存在由于重复编码导致的训练慢,以及缺少对未来信息建模的问题。Future-guided Training[5]采取unidirectional Transformer方式来避免重复编码,并引入averaged embedding来满足当前词与过去词之间的信息交互。同时利用知识精炼的手段让网络充分利用未来的信息,从而达到更准确的预测。

 

5. 领域适应

 

在神经机器翻译中,通过微调来做领域的迁移是一种常见的方法。但是,无约束的微调需要非常仔细的超参数调整,否则很容易在目标域上出现过拟合,导致在通用领域上的性能退化。PRUNE-TUNE[6]是一种基于渐变修剪的领域适应算法。它学习微小的特定于领域的子网以进行调优,通过调整它相应的子网来适应一个新的领域。有效缓解了在微调过中的过拟合和退化问题。

 

此外,领域适应与其他方法相结合也是研究的一个热点。元学习对于低资源神经机器翻译(NMT)的有效性已经得到了充分的验证。但是元训练的NMT系统在未见领域中的翻译性能仍然较差。Meta-Curriculum Learning[7]是一种新的面向领域适应的元课程学习方法。在元训练过程中,NMT首先从各个领域学习相似的知识,以避免早期陷入局部最优,最后学习针对不同领域学习个性化的知识,以提高模型对领域特定知识学习的鲁棒性。

 

6. 解码加速:轻量模型/非自回归解码

 

过参数化的(超大规模)模型能够有效提升神经机器翻译的性能,但是庞大的存储开销和高昂的计算复杂度使得这类模型无法直接部署到边缘设备(如手机,翻译笔,离线翻译机等)上。早期为了提高模型对未登录词的覆盖度往往使用更大的词表,同时增大了词嵌入矩阵的存储开销,以及构建词表上概率分布时对计算资源的消耗。针对该问题,Partial Vector Quantization[8]提出了一种部分矢量量化的方法,通过压缩词嵌入降低softmax层的计算复杂度,同时使用查找操作来替换softmax层中的大部分乘法运算,在保障翻译质量的同时大大减少了词嵌入矩阵的参数和softmax层的计算复杂度。

 

近期,深层模型在神经机器翻译中取得突破性进展,但伴随着层数的堆叠同样面临上述问题。GPKD[9]中提出一种基于群体置换的知识蒸馏方法将深层模型压缩为浅层模型,该方法可以分别应用与编码端与解码端达到模型压缩和解码加速的目的。文中探讨了一种深编码器-浅解码器的异构网络, 其既能保证翻译的准确度,同时满足工业生产的推断时延需求。此外采用子层跳跃的正则化训练方法缓解随着网络加深带来的过拟合问题。

 

此外,沿着减少解码端计算复杂度的研究方向,例如Averaged Attention Network(ACL2018)和Sharing Attention Network(IJCAI2019),Compressed Attention Network[10]采取压缩子层的方式,将解码器每一层中分离的多个子层压缩成一个子层,进而简化解码端的计算复杂度,达到解码加速的目的。这种方式在深编码器-浅解码器的结构上取得了进一步的加速增益。

 

上述的工作通过轻量化模型提高推断速度,本质上在解码过程中还是采用自回归的方式。相比之下非自回归解码同样是一种有效的解码加速手段。非自回归神经机器翻译系统(NAT)通过打破自回归性,并行地生成所有目标词,大幅度地提高了推断速度。然而,现有的NAT模型由于多峰问题,与自回归神经网络机器翻译模型相比,翻译质量仍有很大差距。什么是多峰问题,举个简单的例子将汉语句子“干/得/好/!”翻译成英文,可以翻译成“Good job !”或者“Well done !”。由于非自回归模型的条件独立性假设,推断时第一个词“Good”和“Well”的概率是差不多大的,如果第二个词“job”和“done”的概率也差不多大,会使得模型生成出“Good done !”或者“Well job !”这样错误的翻译。ReorderNAT[11]提出一个新颖的NAT框架,通过显式地建模重排序信息来指导非自回归解码。区别于传统方法,根据源语的繁衍率来构造解码端的输入,ReorderNAT在编码器和解码器中间引入了重排序机制。该机制将源语的表示按照目标语的语序进行重新组合,减少解码器对语序的再加工。

 

7. 评测方法及应用

 

除了针对机器翻译系统的研究外,如何有效的评估机器翻译系统的性能也是一个重要的研究方向。通常情况下我们使用BLEU作为译文质量评估的常用指标,但是在很多应用场景中,并没有可以对比的参考译文。机器翻译质量评估(QE)便是在不依赖任何参考译文的情况下预测机器翻译质量的一项任务。在QE任务中,通常使用预测器-估计器框架(Predictor-Estimator)。使用预训练的预测器作为特征提取器,再通过评估器对译文进行评估。但是预测器和估计器在训练数据和训练目标上都存在差距,这使得QE模型不能更直接地从大量平行语料库中受益。DirectQE[12]中提出了一个新框架,通过生成器在构造QE伪数据,使用额外的探测器在生成的数据上进行训练,并为QE任务设定了新的学习目标,将原本分离的过程进行整合。

 

同样机器翻译本身也可以作为工具应用于其他的任务。研究人员为了解决问答任务的数据稀缺问题,通过机器翻译方法来构造多语言问答数据[13]。

 

相关论文:

[1] Self-supervised Bilingual Syntactic Alignment for Neural Machine Translation

[2] Empirical Regularization for Synthetic Sentence Pairs in Unsupervised Neural Machine Translation

[3] Synchronous Interactive Decoding for Multilingual Neural Machine Translation

[4] Consecutive Decoding for Speech-to-text Translation

[5] Future-Guided Incremental Transformer for Simultaneous Translation 

[6] Finding Sparse Structure for Domain Specific Neural Machine Translation

[7] Meta-Curriculum Learning for Domain Adaptation in Neural Machine Translation

[8] Accelerating Neural Machine Translation with Partial Word Embedding Compression

[9] Learning Light-Weight Translation Models from Deep Transformer

[10] An Efficient Transformer Decoder with Compressed Sub-layers

[11] Guiding Non-Autoregressive Neural Machine Translation Decoding with Reordering Information

[12] DirectQE: Direct Pretraining for Machine Translation Quality Estimation

[13] Multilingual Transfer Learning for QA Using Translation as Data Augmentation

推荐阅读:

AAAI 2021 | 机器翻译最新进展解读_第2张图片

AAAI 2021 | 图神经网络最新进展解读

【关于智源社区】

智源社区隶属于北京智源人工智能研究院,我们致力于创建一个AI领域内行人的交流平台。

在这里你有机会参与全年线上线下百场专题论坛,与顶尖学者零距离接触;也可以与同行探讨领域前沿,碰撞思想火花。如果你更想进入微信群与更多同行人发起实时讨论,或者加入「青源会」结识更多研究伙伴,或者成为智源社区编辑参与更多文字工作,欢迎填写以下表单(扫描二维码)进行申请。

你可能感兴趣的:(大数据,机器学习,人工智能,深度学习,编程语言)