深度学习理论笔记

梯度消失与梯度爆炸

定义:

  1. 梯度消失:由于网络层数较深,bp在进行权重更新时,由于连乘,会使网络前面层的权重的梯度很小,更新很慢,即梯度消失。
    产生原因:网络深、sigmoid激活函数
    深度学习理论笔记_第1张图片
    解决方法:使用relu激活函数,更改模型结构

  2. 梯度爆炸:由上图可以看出,当权重初始化的太大时,由于bp中权重的连乘,会使前面层的梯度很大,使得更新不稳定。
    产生原因:权重初始化过大
    解决方法:梯度截断, 权重衰减(L2正则)或L1正则

目标函数中存在悬崖结构的原因是目标函数存在多个取值较大的参数的连乘。

深度学习理论笔记_第2张图片
因为存在这种悬崖结构,说明目标函数在该区域的梯度值很大(即梯度爆炸),由上述梯度爆炸产生原因可知,是有多个取值较大的参数相乘导致的。

你可能感兴趣的:(笔记杂)