【一起入门DeepLearning】中科院深度学习_期末复习_梯度消失与梯度爆炸

专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 自然语言处理专栏和机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧

什么是梯度消失和梯度爆炸?


  • 激活函数的误差从输出层反向传播时每一层都要乘激活函数的导数,当激活函数的导数值小于1时,误差经过每一层传递都会不断衰减,当网络很深时甚至消失。这就是梯度消失问题。
  • 如果激活函数的导数值很大,误差经过每一层传递都会不断放大,这就会造成梯度爆炸问题,解决梯度爆炸问题的方法是梯度剪枝。

在误差反向传播过程中,需要对损失函数求导,损失函数描述了标准答案与实际输出的误差,在DNN中,输出是要经过一个激活函数的。这就意味着,损失函数的倒数一定与激活函数的导数有关联关系。


补充:解决梯度消失问题的办法:

  1. 选择合适的激活函数
  2. 用复杂的门结构代替激活函数
  3. 残差结构

你可能感兴趣的:(深度学习)