循环神经网络RNN及其变体

RNN

循环神经网络RNN及其变体_第1张图片
经典的RNN网络如图所示,输入和输出是相等的。

Sequence to Sequence

循环神经网络RNN及其变体_第2张图片

在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个时刻 [公式] 的输出作为后一个时刻 [公式] 的输入,循环解码,直到输出停止符为止。

Attention

循环神经网络RNN及其变体_第3张图片
在Seq2Seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由Decoder解码。由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个Context可能存不下那么多信息,就会造成精度的下降。除此之外,如果按照上述方式实现,只用到了编码器的最后一个隐藏层状态,信息利用率低下。

所以如果要改进Seq2Seq结构,最好的切入角度就是:利用Encoder所有隐藏层状态 ht解决Context长度限制问题。

你可能感兴趣的:(深度学习,rnn)