链接: 数据集 提取码: 6cgu
《Neural Machine Translation by Jointly Learning to Align and Translate》
—基于联合学习对齐和翻译的神经机器翻译
作者:Dzmitry Bahdanau ,KyungHyun Cho,Yoshua Bengio
单位:不来梅雅克布大学,蒙特利大学
发表会议:ICLR 2015
补充:最早将注意力机制引入机器翻译的论文
1.机器翻译简介
2.神经机器翻译相关技术
3.前期知识
1.机器翻译简介
机器翻译的出现早于人工智能概念的提出,有着漫长的发展过程(滑稽,对于计算机历史)
大致分为三个阶段
1980:基于规则的翻译
1990:基于统计的翻译
2013:基于神经网络的翻译
一 基于规则的机器翻译
基于规则的机器翻译,是最古老也是见效最快的一种翻译方式。
根据翻译的方式可以分为:
大致流程:
输入–》词性分析–》词典查询–》语序调整–》输出
二 基于统计的方法
2.神经机器翻译相关技术
基于神经网络的机器翻译:
没有引入隐变量z,而是马尔可夫分解,变成每个词的生成,N表示目标语言的长度,yn代表第n个词,x代表句子
如何对条件概率机械能建模?
句子的向量表示:
利用RNN计算句子的向量表示
(深度学习的革命变化之一就是改变了信息的表达方式,用的是连续的数字,向量等表达信息,区别于传统的离散表达)
编码器-解码器框架:
利用RNN实现源语言的编码和目标语言的解码(带来了一种信息传递的新方式)
如何解决这个问题呢?总而引入了一种具有革命性的思想:注意力机制
引入注意力机制:
3.前期知识
1.概论论
2.RNN
3.机器翻译的概念
4.注意力机制的思想,注意力机制的分类和实现方式
1.论文整体框架
2.传统模型讲解
3.小结
4.RNNsearch模型
5.注意力机制其他应用
6.实验和结果
7.讨论和总结
1.论文整体框架
0.摘要
1.介绍
2.背景:神经机器翻译
3.学习对齐和翻译模型
4.实验设置
5.实验结果
6.相关工作
7.结论
2.传统模型讲解
一 任务定义:
这种模型思想的论文来源:《Learning phrase representations using RNN encoder-decoder for statistical machine translation》
—学习使用RNN编码器-解码器进行统计机器翻译的短语表示
模型名称:RNNenc
本文的模型就是以RNNenc为基线进行改进的。
X:表示一个输入的句子的序列
ht:表示t时间生成句子的隐藏状态
f:表示非线性函数
c:表示从句子序列中生成的上下文向量
q:表示非线性函数
大致结构如下图:
h:表示编码器的隐层状态
s:表示解码器的隐层状态
j:表示编码器的输入
i:表示解码器的输入
RNNenc模型效果:
从上右图中可以看出深度学习较好解决了语法不同,意思相同的问题
在机器翻译领域,使用Seq2Seq模型在英法翻译任务中表现接近技术的最先进水平,比传统的词袋模型效果要好。
RNNenc模型存在问题
提出一种新的神经机器翻译模型RNNsearch模型
编码器:采用双向循环神经网络:
隐藏状态同时对当前单词前面和后面的信息编码
解码器:提出一种扩展(注意力)模型
注意力机制:对输入的隐藏状态求权重
(补充:我觉得注意力机制的本质就是提高某一部分(你想要的部分)
权重,当然这个大家都理解,难点在于怎么做到的,其实想理解怎么做到的,一般没什么思绪,其实你可以先把重心点放在模型的权重是如何产生的上面)
3.小结
4.RNNsearch模型
一 传统模型 VS 改进模型
RNNenc
RNNsearch
注意力思想:
思想:集中关注上下文
就是只关注相关的上下文,
is关注dog,因为dog时动词
chasing关注is和dog,因为动物才有chase的现在进行时
注意力机制的思想在本质上改变了信息传递的方式
在之前任何一个单词的出现都依赖前后有限个数词的影响,靠的越近影响越大,这显然是不科学的,而注意力机制改变了这一现状,它赋予每个单词同等的机会,当然也有一定的相关性。
注意力机制的计算公式
5.注意力机制其他应用
6.实验和结果
Bleu:一种文本评估算法,用来评估机器翻译跟专业人工翻译之间的对应关系
核心思想:机器翻译越接近人工翻译,质量越好
经过bleu算法得出的分数可以作为机器翻译质量的其中一个指标
接下来是对比实验的结果:RNNsearch模型在长句子上表现优异
对齐模型的分析:显示了注意力机制的权重矩阵,白色越相关,注意力机制传递信息的优越
7.讨论和总结
注意力机制能够提升多少性能?
Luong等人证明使用不同注意力机制计算会导致不同的结果
双向循环神经网络能够提升多少性能?
Luong等人证明使用单向lstm和使用计算注意力分数具有同样的效果
论文的主要创新点:
A :提出一种新的神经机器翻译方法
1.没有将输入编码到固定维度
2.采用注意力机制
B:适用于其他结构化的输入输出问题
C: 一些设计的选择出于实际的考虑,后续做了很多权衡的分析
简述你理解的机器翻译。
简述你学习到的神经机器翻译过程。