论文地址:https://arxiv.org/abs/2106.15115v1
1947:Warren Weaver提出了机器翻译的可能性
1954:IBM发明了word-for-word翻译系统
…
归纳低资源机器翻译中用到的技术。
主要包含:1. 基于单词和短语替换产生伪平行语料的方法;2. 基于回译产生伪平行语料的方法;3. 基于多语言预训练模型挖掘平行语料的方法
利用双语词典,替换选定句子的所有单词或稀有词,产生对应翻译[119][127]
替换掉target句子中稀有词,进一步对source句子做相应的对齐,产生更多平行语料[47]
为了解决上述方法中伪平行语料流利度不足的问题:
缺点:需要外部特定语言的资源,如双语词典、POS taggers、dependency parser等
回译通常是把target句子翻译回source句子,产生伪平行语料,因为真实的target句子能改善翻译模型的流利度([48]表明从source句子开始效果差)
为了解决回译产生的伪平行句噪声多的问题:
缺点:
第一步是生成多语对齐的向量空间
第二步是句子相似度排序,利用基于cosine的无监督相似度、有监督的相似度度量。
缺点:
包含三个步骤:1. 初始化;2. 回译;3. 判别分类器
缺点:
上述缺点的解决:
利用不同的语言资源:
利用不同的神经表示策略:
研究发现,相比于双语,多语初始化的模型能带来更好的回译效果[53][105][143][154][162]
使用对抗策略:
增加额外的损失函数:
缺点:
回译
利用语言模型的不同策略:
和回译类似,但模型优化基于强化学习[70][168][174]
缺点:
有监督的多语言机器翻译有三种模型架构:
多语言机器翻译用于低资源机器翻译有几种应用场景:1. 有监督的机器翻译;2. 无监督的机器翻译;3. 半监督的机器翻译;4. 基于预训练多语言模型的迁移学习。
解决低资源和高资源数据不平衡的问题:
和半监督机器翻译一样,也是探究如何利用单语:
[35][60][61][97][121]
不一定是预训练,也有改进多语言模型在低资源语言上的性能[60]
有以下改进的方向:1. 缩小语言间空间不匹配;2. finetune策略; 3. 迁移策略;4. parent模型
影响性能的因素:
parent模型为multi-NMT性能往往更好[86][97][112][113]
parent模型为multi-NMT+迁移到child vs 直接合并parent和child训练一个multi-NMT的性能有待进一步研究
有几种解决方式:1. pivot;2. 迁移学习; 3. multi-NMT; 4. 无监督
s-p for source-pivot | p-t for pivot-target
提升性能:
缺点:
按照文章的理解:如果multi-NMT真的学习到了一个国际语,source和target语言之间应当会有更少的联系,每一种语言都有language-specific的参数,把它转换成国际语。然而,目前面临参数量过少,不同语言共用部分参数的问题。解决方法:
上述无监督机器翻译可以看作是zero-shot的特例
低资源机器翻译主要涉及了:数据增强、无监督\半监督\多语言\zero-shot机器翻译、迁移学习。个人感觉:机器翻译的场景可分为:有监督、zero-shot、无监督、半监督,可用到的方法论有:多语言机器翻译、数据增强、zero-shot、对偶学习等。
比较特别的是:多语言机器翻译可能早些时候是一个机器翻译的场景,但实验发现,它能够帮助到有监督、zero-shot、无监督、半监督这一系列的机器翻译场景,逐渐演变为了一种方法论。
多语言机器翻译是大势所趋,虽然已经有了比较多的工作,但也存在很多方向待改进: