NNDL 作业10:第六章课后题(LSTM | GRU)


    • 习题6-3使用公式(6-50)作为神经网络的更新公式时,分析其产生梯度抱着的原因
    • 习题6-4 推导lstm参数的梯度,并分析其在缓解梯度消失中的作用
      • 公式推导
      • 其在缓解梯度消失中的作用
    • 习题6-5 分析GRU的梯度在梯度缓解中的作用
    • 什么时候用GRU?什么时候用LSTM?
    • 参考

习题6-3使用公式(6-50)作为神经网络的更新公式时,分析其产生梯度抱着的原因

​​NNDL 作业10:第六章课后题(LSTM | GRU)_第1张图片

​​

习题6-4 推导lstm参数的梯度,并分析其在缓解梯度消失中的作用

公式推导

当T=3时,传播图如下。
NNDL 作业10:第六章课后题(LSTM | GRU)_第2张图片
部分公式计算如下
NNDL 作业10:第六章课后题(LSTM | GRU)_第3张图片
NNDL 作业10:第六章课后题(LSTM | GRU)_第4张图片
其中当对 W x f 3 W_{xf3} Wxf3求导的时候可以从上往下进行查找,然后利用链式法则进行求导。

NNDL 作业10:第六章课后题(LSTM | GRU)_第5张图片
NNDL 作业10:第六章课后题(LSTM | GRU)_第6张图片
NNDL 作业10:第六章课后题(LSTM | GRU)_第7张图片

其在缓解梯度消失中的作用

NNDL 作业10:第六章课后题(LSTM | GRU)_第8张图片

这里不说官方的语言,举个大家生活中简单的例子——考试
前面的 A A A相当于考了高数, h t − 1 h_{t-1} ht1为考试中高数的内容,而中间的这个裸露的部分相当于现在正在考的线代。
NNDL 作业10:第六章课后题(LSTM | GRU)_第9张图片
我们将其放大, c t − 1 c_{t-1} ct1也就是上一轮考试(高数)的记忆, h t − 1 h_{t-1} ht1相当于高数的内容,其中高数的内容和线代的输入经过遗忘门,也就是 f t f_{t} ft将其遗忘,就比如高数中的麦克劳林公式和泰勒公式在现代中是用不到的,所以我们需要选择性的将其进行遗忘,而更新门 i t i_{t} it的作用就是选择性的记忆,讲线代和高数中学习到的只是 c t c_{t} ct选择性的记忆,就比如每次新学一个学科就要学习它的历史,而在实际的考试中,我们是使用不到历史的,也就是所谓的重点不考,所以我们需要将其忘记,而最后的输出门则是进行答题了,并不是所有的学习了的都要考,只是老师出题的部分,所以就有输出门进行选择。同时不会从头到尾进行梯度传播,只是部分进行负责梯度传播,所以避免的梯度爆炸,和梯度消失。

习题6-5 分析GRU的梯度在梯度缓解中的作用

NNDL 作业10:第六章课后题(LSTM | GRU)_第10张图片
举个例子:假设现在正在学习机器学习, h t − 1 h_{t-1} ht1代表之前的学习到的笔记,包括一些语文的知识,和支持向量机,
其中 z t ∗ h t − 1 z_{t}*h_{t-1} ztht1代表的是之前略去之前学习到的没用的知识保留下有用的,就是去掉语文,保留下支持向量机,而 ( 1 − z t ∗ h t   ) (1-z_{t}*h_{t}^{~}) (1ztht )代表的则是忽略下学习到的没用的知识,留下有用的知识,LST参数少不容易过拟合。

什么时候用GRU?什么时候用LSTM?

二者各有千秋,GRU与LSTM的主要区别是参数较少。在整体形式上没有区别,都是先对历史信息就行筛选,然后再融入新的信息。但是,在细节上GRU通过同一个共用的门,以互补的形式来减弱和加强信息,算是GRU中最核心的部分。至于最后在对新输入的处理,基本没有太大的差别。GRU只有两个门控,从计算角度看,它的效率更高,但是LSTM更加的强大和灵活,因为它具有三个门控。通过查询,发现LSTM更适合用于处理与时间序列高度相关的问题,例如机器翻译、对话生成、编码\解码等,。

参考

【重温经典】大白话讲解LSTM长短期记忆网络 如何缓解梯度消失,手把手公式推导反向传播
deeplearning.ai - 网易云课堂 (163.com)
NNDL 作业10:第六章课后题(LSTM | GRU)

你可能感兴趣的:(lstm,gru,深度学习)