伯禹学习平台:动手学深度学习3

学习笔记Task4,这部分没什么兴趣应该不会写有关自己的理解了,直接转过来了,虽然其他的也和转载的差不多。转自伯禹学习平台的动手学深度学习课程

机器翻译及相关技术

机器翻译和数据集
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。

Encoder-Decoder
encoder:输入到隐藏状态
decoder:隐藏状态到输出
伯禹学习平台:动手学深度学习3_第1张图片

可以应用在对话系统、生成式任务中。
Sequence to Sequence模型
模型:
训练
伯禹学习平台:动手学深度学习3_第2张图片
预测
伯禹学习平台:动手学深度学习3_第3张图片
具体结构:
伯禹学习平台:动手学深度学习3_第4张图片

Beam Search
简单greedy search:
伯禹学习平台:动手学深度学习3_第5张图片
伯禹学习平台:动手学深度学习3_第6张图片

注意力机制与Seq2Seq模型

在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。

与此同时,解码的目标词语可能只与原输入的部分词语有关,而并不是与所有的输入有关。例如,当把“Hello world”翻译成“Bonjour le monde”时,“Hello”映射成“Bonjour”,“world”映射成“monde”。在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。

伯禹学习平台:动手学深度学习3_第7张图片
伯禹学习平台:动手学深度学习3_第8张图片
伯禹学习平台:动手学深度学习3_第9张图片

Transformer

伯禹学习平台:动手学深度学习3_第10张图片
Transformer框架
伯禹学习平台:动手学深度学习3_第11张图片

你可能感兴趣的:(伯禹学习平台:动手学深度学习3)