RNN(recurrent neural network regularization)

论文:https://arxiv.org/pdf/1409.2329.pdf

摘要:

论文为RNN中的LSTM单元提出一个简单的调整技巧,dropout在调整神经网络中取得非常大的成功,但是在RNN(循环神经网络)和LSTM中表现不好。论文展示了如何正确的在LSTM中应用dropout,并且显示出该技巧能够显著减少过拟合现象。

介绍:

循环神经网络(RNN)是一个连续神经网络,用于解决语言模型、语音重建和机器翻译等问题。不幸的是,dropout在RNNs中表现不佳,在比较大的RNN网络中,常常出现过拟合现象。论文提出了一个很好的使用dropout的技巧来解决这个过拟合的问题。

dropout在RNN中表现不佳是由于循环增大了噪声,该噪声对学习效果有害。论文提出的方法可以通过在RNN的一些子集连接中使用dropout来解决这个问题。

论文提出算法的代码:https://github.com/wojzaremba/lstm

LSTM:

RNN方程如下,RNN动态的描述了之前状态和当前状态的转变:

在经典的RNNs网络中,该方程可表达如下;

LSTM的引入,使得RNN可以记住一定数量步骤的的信息,同时也使得上述过程复杂化,long term 储存在一个向量中:,LSTM的结构可以由如下方程表示,右图是LSTM的结构表示:

RNN(recurrent neural network regularization)_第1张图片   RNN(recurrent neural network regularization)_第2张图片

其中:表示仿射,表示 t 时刻 l 隐藏层的状态。

论文最主要的思想是,在没有循环连接的结构中使用dropout,换言之,在有循环连接结构中,不适用dropout,方程修改如下所示,数据流向及操作如下右图所示,虚线表示使用了dropout,实线表示没有使用dropout:

RNN(recurrent neural network regularization)_第3张图片   RNN(recurrent neural network regularization)_第4张图片

论文采用的方式使得在RNN之间的信息传递,数据计算更加具有鲁棒性,同时也保证了数据之间的相关性和完整性。下图显示了,信息从 t-2 步流向到 t+2 步中,实线表示信息数据的流向。

RNN(recurrent neural network regularization)_第5张图片

 

你可能感兴趣的:(RNN,LSTM,dropout,深度学习)