#Paper Reading# Dual Learning for Machine Translation

论文题目:Dual Learning for Machine Translation
论文地址:https://arxiv.org/abs/1611.00179
论文发表于:NIPS 2016(B类会议)

论文大体内容:
NMT(neural machine translation)机器翻译模型所需标注的训练数据量特别大的问题,但大量的人工标注的训练数据往往意味着大量的花费,因此本文针对这一问题,提出一个对偶模型,dual-NMT,能够使用unlabel的数据也能达到一个很好的效果。

1、主要思想体现在two-agent communication game中,过程是这样的:
#Paper Reading# Dual Learning for Machine Translation_第1张图片
(图片来自于MSRA[1])
#Paper Reading# Dual Learning for Machine Translation_第2张图片
①需要有的输入:数据集DA,DB;弱翻译器ΘAB与ΘBA;强语言模型LMA与LMB;超参数α,K, γ1,t,γ2,t;
②对于Alice(熟悉English)来说,先从DA选出一个English的句子X,然后经过弱翻译器ΘAB将X翻译为B语言(French),得到Xmid;
③对于Bob(熟悉French)来说,看到Xmid,然后使用强语言模型LMB检查Xmid的好坏,从而得到对弱翻译器ΘAB的反馈;
④Bob再将Xmid使用弱翻译器ΘBA翻译为A语言(English),得到X’;
⑤Alice使用强语言模型LMA检查X’以及对比X与X’的差距,从而得到对弱翻译器ΘBA的反馈;
⑥接着对DB的句子也执行②-⑤操作,Alice和Bob交替玩这个game,从而不断修正弱翻译器ΘAB与ΘBA,得到强翻译器;

2、实验部分
①预处理:将包含非常用的30K个词的句子去掉,每个词用620维向量表示;
②评测方法:BLEU[2];
③baseline:传统的NMT,pseudo-NMT;

3、最终效果
比baseline有较为明显的提高;
#Paper Reading# Dual Learning for Machine Translation_第3张图片
#Paper Reading# Dual Learning for Machine Translation_第4张图片

4、思考
作者提出的这种对偶学习方法,确实能够很好地克服label数据的不足。同时,作者也提到,只要能形成一个闭环系统,那么就可以使用这种对偶学习的方法,毕竟,每个人(结点)都能够判断模型生成的效果,同时加入到NMT的反馈中,从而不断把弱翻译器改进为强翻译器。这种方法其实类似于迭代式学习方法,通过反馈改进模型,还是挺有意思的。

参考资料:
[1]、http://www.msra.cn/zh-cn/news/blogs/2016/12/dual-learning-20161207.aspx
[2]、https://en.wikipedia.org/wiki/BLEU

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

你可能感兴趣的:(paper,reading,DL,Dual)