NNDL 作业10:第六章课后题(LSTM | GRU)

目录

  • 习题6-3
  • 习题6-4
  • 习题6-5
  • 参考文献


习题6-3

  当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法。

NNDL 作业10:第六章课后题(LSTM | GRU)_第1张图片

习题6-4

  推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果。
NNDL 作业10:第六章课后题(LSTM | GRU)_第2张图片
(注,下面图片中的W和书上的W有些不同,代替了书上的W和U)


  LSTM在计算梯度时,不会从头到尾进行梯度传播,只是部分进行负责梯度传播,而好多过于久远的信息占比就很少了,甚至直接“遗忘了”。这样就很有效的避免了梯度爆炸问题,跟人一样,该忘记的事情就忘记吧。

习题6-5

  推导GRU网络中参数的梯度,并分析其避免梯度消失的效果。

  GRU中只有两个门,更新门与重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门控制前一时刻状态有多少信息被写入到当前的候选集 h t   h^{~}_t ht 上,重置门越小,前一状态的信息被写入的越少。
NNDL 作业10:第六章课后题(LSTM | GRU)_第3张图片
NNDL 作业10:第六章课后题(LSTM | GRU)_第4张图片

NNDL 作业10:第六章课后题(LSTM | GRU)_第5张图片

参考文献

人人都能看懂的LSTM介绍及反向传播算法推导(非常详细)

https://blog.csdn.net/qq_38975453/article/details/127742059?spm=1001.2014.3001.5502

你可能感兴趣的:(lstm,gru,深度学习)