NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)


习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

若使用 z_k=Uh_{k-1}+Wx_k+b 作为 k 时刻 g(·) 的输入,那么在对其求导时,h_t 与 h_{t-1} 的权重系数就会超过1.
NNDL 作业10:第六章课后题(LSTM | GRU)_第1张图片

 为了解决这些问题,可以通过引入门控来进一步改进模型。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 NNDL 作业10:第六章课后题(LSTM | GRU)_第2张图片

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

NNDL 作业10:第六章课后题(LSTM | GRU)_第3张图片

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)

两者的区别:GRU 中缺少的 LSTM 单元的一个功能是内存内容的受控暴露。在 LSTM 单元中,网络中其他单元看到或使用的内存内容量由输出门控制。另一方面,GRU 在没有任何控制的情况下公开其全部内容。另一个区别在于输入的位置门,或相应的复位门。LSTM 单元计算新的内存内容,而无需单独控制从前一个时间步长流出的信息量。相反,LSTM 单元独立于遗忘门控制添加到存储单元的新内存内容的数量。另一方面,GRU 在计算新的候选激活时控制来自先前激活的信息流,但不独立控制添加的候选激活量(控制通过更新门绑定)

1. LSTM利用输出门(output gate)可以选择性的使用细胞状态(细胞状态),而GRU总是不加选择的使用细胞状态

2. LSTM利用更新门(update gate)可以独立控制加入多少新的“记忆”,与老“记忆”无关,而GRU对新“记忆”的加入会受老“记忆”的约束,老“记忆”留存越多新“记忆”加入越少。
单从模型的角度分析,参数更复杂的LSTM具有更好的flexibility同时过拟合risk也更高

GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。 它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型; 但是LSTM更加的强大和灵活,因为它具有三个门控。 LSTM是经过历史检验的方法。

最后一个选做题看了别人推导过程也没看太懂......

你可能感兴趣的:(lstm,gru,深度学习)