递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?

1. 递归神经网络

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用。
可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。
递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?_第1张图片
递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

2.LSTM

长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。
所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。
递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?_第2张图片

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:
递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?_第3张图片
理解LSTMs的关键就是下面的矩形方框,被称为memory block(记忆块),主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。方框内上方的那条水平线,被称为cell state(单元状态),它就像一个传送带,可以控制信息传递给下一时刻。

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过,它有一个sigmoid神经网络层和一个成对乘法操作组成,该层的输出是一个介于0到1的数,表示允许信息通过的多少,0 表示完全不允许通过,1表示允许完全通过。

工作过程

  1. LSTM第一步是用来决定什么信息可以通过cell state。

这个决定由“forget gate”层通过sigmoid来控制,它会根据上一时刻的输出h t − 1和当前输入x t 来产生一个0到1 的f t 值,来决定是否让上一时刻学到的信息C t − 1 通过或部分通过。
在这里插入图片描述

  1. 第二步是产生需要更新的新信息。

这一步包含两部分,第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新,第二个是一个tanh层用来生成新的候选值C ~ t ,它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。
递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?_第4张图片
首先,我们将老的cell state乘以f t 来忘掉我们不需要的信息,然后再与i∗C~t 相加,得到了候选值。
在这里插入图片描述
3. 最后一步是决定模型的输出

首先是通过sigmoid层来得到一个初始输出,然后使用tanh将C t值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。
递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?_第5张图片

3. LSTM 两个激励函数区别sigmoid 和tanh

  • sigmoid 用在了各种gate上,产生0~1之间的值,这个一般只有sigmoid最直接了。
  • tanh 用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。

为什么不用ReLU呢?

  • ReLU和Sigmoid一样,它们的输出是非零中心化的,给后一层的神经网络引入偏置偏移, 会影响梯度下降的效率。
  • ReLU的局限性在于其训练过程中会导致神经元死亡的问题。
    在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活。那么,这个神经元自身参数的梯度永远都会是 0,在以后的训练过程中永远不能被激活。这种现象称为死亡 ReLU 问题 (Dying ReLU Problem),并且也有可能会发生在其它隐藏层。

参考:
https://blog.csdn.net/weixin_45250844/article/details/103285497?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-1.essearch_pc_relevant&spm=1001.2101.3001.4242
https://blog.csdn.net/DecafTea/article/details/113131524?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.essearch_pc_relevant&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.essearch_pc_relevant

你可能感兴趣的:(神经网络,lstm,深度学习)