梯度消失

什么是梯度,梯度传递时的计算过程

梯度是损失函数在某点的导数,它表示损失函数在该点的变化率。负梯度方向是损失函数值下降最快的方向。

反向传播是一种计算神经网络中每个权重损失函数梯度的方法。通过计算损失函数关于每个权重的梯度,我们可以知道如何调整权重以使损失函数最小化。

(30条消息) 神经网络训练过程_坠金的博客-CSDN博客

为什么会梯度消失

在反向传播过程中,梯度值逐渐变小,接近于0。随着层数越深,梯度值越小,当梯度接近于0时,权重更新的幅度非常小,训练过程变得非常缓慢。这将导致神经元全部为0,或者为某一定值

该问题发生在误差反向传播过程中

问题根源:激活函数

在神经网络中,激活函数用于引入非线性。它们的导数在输入值较大或较小时会接近于0。在反向传播过程中,由于链式法则,梯度值需要连续乘以这些接近于0的导数,导致梯度逐渐变小。

解决方案

使用 ReLU 激活函数(其导数为1或0)

采用更好的权重初始化策略(如 He 初始化和 Xavier 初始化)

你可能感兴趣的:(目标识别/语义分割,深度学习,机器学习,人工智能)