lstm数学推导_深度学习中的参数梯度推导(五)上篇

前言

在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

5.1

LSTM的前传

4e13cd720c27fddfe3eea8493ece101f.png lstm数学推导_深度学习中的参数梯度推导(五)上篇_第1张图片 926b81609a88351b3397b4401b8c8c40.png lstm数学推导_深度学习中的参数梯度推导(五)上篇_第2张图片 c542b750987c091d2b996fa818a95e13.png

由于RNN梯度消失的问题,大牛们对于序列索引位置t的隐藏结构做了改进,可以说通过一些技巧让隐藏结构复杂了起来,来避免梯度消失的问题,这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种,这里我们以最常见的LSTM为例讲述。LSTM的结构如下图:

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第3张图片

5.1.1 LSTM之细胞状态

上面我们给出了LSTM的模型结构,下面我们就一点点的剖析LSTM模型在每个序列索引位置t时刻的内部结构。

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第4张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第5张图片 c24c8959f6be026fb83d6a8173e47cd5.png

除了细胞状态,LSTM图中还有了很多奇怪的结构,这些结构一般称之为门控结构(Gate)。LSTM在在每个序列索引位置t的门一般包括遗忘门,输入门和输出门三种。下面我们就来研究上图中LSTM的遗忘门,输入门和输出门以及细胞状态。

5.1.2 LSTM之遗忘门

遗忘门(forget gate)顾名思义,是控制是否遗忘的,在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示:

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第6张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第7张图片

5.1.3 LSTM之输入门

输入门(input gate)负责管理当前序列位置的输入,它的子结构如下图:

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第8张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第9张图片

5.1.4 LSTM之细胞状态更新

479dfc7203797a2284b9f01a726521a2.png lstm数学推导_深度学习中的参数梯度推导(五)上篇_第10张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第11张图片

5.1.5 LSTM之输出门

a1215b5fcf4c181e3c0233b6043717d1.png lstm数学推导_深度学习中的参数梯度推导(五)上篇_第12张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第13张图片

5.1.6 LSTM前向传播算法

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第14张图片

参考资料

https://www.cnblogs.com/sumwailiu/p/13623985.html

https://www.zhihu.com/question/34878706/answer/665429718

https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html

https://www.cnblogs.com/pinard/p/6519110.html

深度学习

TO BE CONTINUED

数学

文章作者: 中国电信研究院 | 刘心唯

文章内容系作者个人观点,不代表融智未来公众号的观点或立场。

往期 · 推荐

● 深度学习中的参数梯度推导(一)上篇

● 深度学习中的参数梯度推导(三)上篇

● 深度学习中的参数梯度推导(三)中篇

● 深度学习中的参数梯度推导(三)下篇

● 深度学习中的参数梯度推导(四):vanilla RNN的前传与反传

lstm数学推导_深度学习中的参数梯度推导(五)上篇_第15张图片 lstm数学推导_深度学习中的参数梯度推导(五)上篇_第16张图片

你们点点“分享”,给我充点儿电吧~

你可能感兴趣的:(lstm数学推导)