多层LSTM

多层LSTM_第1张图片

我们扩展了单层 RNN,使它们具有两层。对于原始的单层版本,请参阅上一章简介中的绘图。左侧架构说明了使用多层 RNN 预测输出序列中的一个输出的方法。正确的架构显示了使用多层 RNN 预测输出序列的方法,该输出序列使用输出作为输入。
比如下面的例子
多层LSTM_第2张图片 多层LSTM_第3张图片
以上是按时间展开的堆叠循环神经网络。一般的,我们定义 ht(l)为在时刻 t 时第 l 层的隐状态,则它是由时刻t-1第l层的隐状态与时刻t第l-1层的隐状态共同决定:
其中U (l) 、W (l) 是权重矩阵,b (l) 是偏置,h t (0) = x
我们可以看到,如果一共有T步,那么会有T个输出:y 1 ,y 2 ,...,y T 。但一般只取最后一个输出y T ,相应的隐状态也取最后时刻最后一个循环层的隐状态,比如上面就是取h T (3) ,这是代码中需要注意的地方。
参考链接:
1、 https://www.cnblogs.com/Luv-GEM/p/10788849.html
2、 https://zhuanlan.zhihu.com/p/40119926

你可能感兴趣的:(深度学习算法,深度学习,自然语言处理)