NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果​编辑

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果​ 

参考


习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

公式(6.50)为:h_{t}=h_{t-1}+g(x_{t},h_{t-1};\Theta )

  在公式 Z_k=Uh_{k-1}+W_{x_k}+b为在第K时刻函数g(*)的输入,在计算公式(6.34)中的误差项时,梯度可能过大,从而导致梯度爆炸问题。

解决办法:增加门控装置,使用LSTM网络。

习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果​编辑

NNDL 作业10:第六章课后题(LSTM | GRU)_第1张图片

其中 E为损失函数,由于LSTM中通过门控机制解决梯度问题,遗忘门,输入门和输出门是非0就是1的,并且三者之间都是相加关系,梯度能够很好的在LSTM传递,减轻了梯度消失发生的概率,门为0时,上一刻的信息对当前时刻无影响,没必要接受传递更新参数了。

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果​ 

NNDL 作业10:第六章课后题(LSTM | GRU)_第2张图片

GRU它引⼊了重置⻔(reset gate)和更新⻔(update gate) 的概念,从而修改了循环神经⽹络中隐藏状态的计算⽅式。

在这里插入图片描述

在这里插入图片描述

LSTM与GRU二者结构十分相似,不同在于:

新的记忆都是根据之前状态及输入进行计算,但是GRU中有一个重置门控制之前状态的进入量,而在LSTM里没有类似门;
产生新的状态方式不同,LSTM有两个不同的门,分别是遗忘门(forget gate)和输入门(input gate),而GRU只有一种更新门(update gate);
LSTM对新产生的状态可以通过输出门(output gate)进行调节,而GRU对输出无任何调节。

GRU的优点是这是个更加简单的模型,所以更容易创建一个更大的网络,而且它只有两个门,在计算性上也运行得更快,然后它可以扩大模型的规模。
 

参考

LSTM,GRU为什么可以缓解梯度消失问题?

解决梯度消失梯度爆炸强力推荐的一个算法-----GRU(门控循环神经⽹络)

彻底看懂RNN,LSTM,GRU,用数学原理解释梯度消失或者梯度爆炸

你可能感兴趣的:(深度学习,人工智能)