bp算法中梯度消失

主要是因为以前用sigmoid的时候,sigmoid中心部位和两侧的梯度差别太大,如果权重初始化得太大,激活值基本都在sigmoid两侧,两侧梯度几乎为0,传播几层就没有梯度了。

即使用很好的初始化算法把激活值控制在一个合理范围内,优化几下有几个神经元就又跑到两侧了,而一旦到两侧,因为梯度过小,就再也无法通过梯度更新来使其恢复。

这个问题在提出ReLU和有效的初始化方法(例如MSRA)后已经大概率解决。

后来又出了个Batch Normalization,不管优化多少层都跟浅层一样,梯度消失问题基本可以认为彻底解决了。




链接:https://www.zhihu.com/question/49812013/answer/271392687
 

你可能感兴趣的:(深度学习)