莫烦python|Tensorflow笔记--什么是LSTM RNN循环神经网络(深度学习)

莫烦python|Tensorflow笔记--什么是LSTM RNN循环神经网络(深度学习)_第1张图片

LSTM是Long Short-Term Memory的简称,中文又叫做长短期记忆,是当下最流行的RNN形式之一。之前说过RNN是在有序的数据上进行学习的。为了记住这些数据,RNN会像人一样产生对先前数据发生记忆,不过一般形式的RNN就像一位老爷爷,有的时候还是比较健忘的,为什么会这样呢?想象现在有这样一个RNN,它的输入值是一句话“我今天要做红烧排骨,首先要准备排骨,然后,,,最后美味的一道菜就出锅了”。现在请RNN来进行分析,今天我做的到底是什么菜呢,RNN可能会给出辣子鸡这个答案,由于判断失误,RNN就要开始学习常数列和红烧排骨的关系,而RNN所需要的关键数据红烧排骨却出现在句子开头。

 

接下来看看RNN是怎样学习的吧,红烧排骨这个信息源的记忆要经过长途跋涉才能最终抵达最后一个时间点。然后我们可以得到一个误差,然而在反向传递得到这个误差的时候,它在每一步都会乘以一个自己的参数W,如果这个W是一个小于1的数,比如0.9,这个0.9不断乘以误差,误差传到初始时间的时候也会是一个接近0的数。所以对于初始时刻,误差就相当于是消失了。我们把这个问题叫做梯度消失或者梯度弥散。如果W是一个大于1的数,比如1.1,不断累乘,最后可能会变成一个无穷大的数,RNN被这个无穷大的数撑死了,这种情况我们叫做梯度爆炸,这就是普通RNN没有回忆起久远记忆的原因。

莫烦python|Tensorflow笔记--什么是LSTM RNN循环神经网络(深度学习)_第2张图片

LSTM就是为了解决这个问题而产生的,LSTM和普通RNN相比,多出了三个控制器:输入控制、输出控制和忘记控制。现在,LSTM RNN内部的情况是这样的,它多了一个控制全局的记忆,我们用这条粗线来代替,为了方面理解,我们把粗线想象成电影或游戏中的主线剧情,而原本的RNN体系就是分线剧情,三个控制器都是在原始的RNN体系上。我们先看输入方面,如果此时的分线剧情对于剧中结果非常重要,输入控制就会按重要程度将这个分线剧情写入主线剧情,再进行分析。再看忘记方面,如果此时的分线剧情改变了我们对之前剧情的想法,那么忘记控制就会将之前的某些主线剧情忘记,按比例替换成现在的新剧情,所以主线剧情的更新就取决于输入和忘记控制。最后输出方面,输出控制会根据目前的主线剧情和分线剧情判断要输出的到底是什么。基于这些控制机制,LSTM就像延缓记忆衰退的良药,可以带来更好的结果,这些就是对LSTM的介绍。

你可能感兴趣的:(TensorFlow)