前置学习:
元学习,迁移学习,Few-shot learning,life-long learning等区别和联系,台大李宏毅https://blog.csdn.net/weixin_41684423/article/details/115480637
MetaMT:
问题是什么?
在机器翻译任务中,特殊领域的数据集不易收集,限制了神经机器翻译模型的性能,
为什么问题重要?
利用多个领域域的数据开发稳健的翻译系统可以容易的迁移到特殊领域,(涉及到元学习,域适应,迁移学习等)。
为什么问题困难?
在神经机器翻译(NMT)中,从一个域到另一个域的迁移的挑战是域间的差异,主要由两个方面:
1)域间存在含义相同但表示不同的词,导致数据稀疏。
2)因为词的多义性问题,不同域的相同的词的含义不同,在特殊域的机器翻译上会导致严重后果。
别人做了什么?
存在的域适应NMT主要分为两类。
1)以数据为中心
聚焦在从语料库中创造特殊域的数据
2)以模型为中心
以模型为中心的类别侧重于专门用于领域适应的NMT模型,如微调和实例/成本加权。前者将目标域的数据放到训练数据流的末尾来微调模型参数。后者在训练时为目标域数据分配高权重。
核心贡献是什么?
操作多个领域的数据去模仿域适应并且训练一个新颖的模型,解决大词典,词稀疏和多义性的问题。
不采用查询表来存储词的表示,而是模型首先映射所有的词到一个所有域都共享的语义空间。
然后在每个域中重复的训练大量数据,然后在小数据集域上微调。
定义了模型参数和元参数,模型参数用来学习从原句子到目标句子的翻译。元参数用于提高所学习模型的泛化能力。在微调阶段冻结模型参数并仅仅调整元参数。元学习策略用于学习参数初始化,可以快速采用于新领域。
主要的成果有哪些?
模型可以运用到任何一种语言。在最常用的英语到西班牙语的翻译上进行实验。实验表明,与现有的迁移学习NMT方法相比,进行评估时,改进了结果。为了进一步验证所提出的模型的有效性,使用了一个只有3000句电子健康记录的小数据集。实验表明,该模型在数千个句子上进行训练时,可以对特定领域产生高质量的结果。
第一,提出了一个基于元学习原则的新颖的域适应训练策略用于神经机器翻译。
第二,一种新的词嵌入转换技术处理域差距。
获得好结果的前提假设是什么?
NMT背景:
backbone :Encoder-Decoder:meta-NMT模型基于Transformer模型。
预适应用于NMT:
fine-tuning:缺点:需要大量样本避免过拟合,且导致其他域性能下降。
curriculum learning: 调整训练数据的顺序来提升收敛速度和性能。
DeNero等人研究微调并指出仅通过调整一小部分模型参数就可以实现域自适应。本文的工作也运用跟这个策略,划分参数到元参数和模型参数。
Vilar等人提出不同的神经元在不同的域扮演不同的角色,因此根据数据去调整神经元的权重是有必要的。于操作神经元和词表示不同,metaNMT使用神经映射去考虑域的差异。
元学习:
分为两类:一、作为一种原则:例如迁移学习和课程学习。二、元学习作为一种参数更新算法
下图展示了元学习的参数学习和调整过程:
从图中可以看到,特殊域的寻参过程更快且准确。
Meta-NMT背景:
模型训练更新模型参数,红色虚线指向红框中的参数均为模型参数。元训练更新元参数,包括黑色虚线指向的两个框的参数。
第一步,先学习统一的词表示
Map Embedding to a New space:
A矩阵(d*d)在训练中学习,E矩阵为挑选的频繁词的词嵌入域空间,由普通域训练得到。EG为n*d的矩阵。
Learning Policy:
实验分析:
数据:
公开数据集网址
http://opus.nlpl.eu/
词频统计:byte pair encoding (BPE)进行分词
介绍:https://zhuanlan.zhihu.com/p/448147465
词嵌入:fastText
介绍:https://blog.csdn.net/feilong_csdn/article/details/88655927
分析:
评价指标:BELU
https://zhuanlan.zhihu.com/p/657704483
在7个公开数据集上的对比和消融实验:
在非常小的数据集上的实验(特殊域)
EHR(英语和西班牙语的电子健康记录),说明了很专业的构建了数据集(描述得很好)