深度学习中的momentum和weight decay参数

1.momentum

用于梯度下降算法中加速模型收敛。

深度学习中的momentum和weight decay参数_第1张图片

如上公式,其中V代表动量,u代表参数momentum的值,a为学习率。

 

2.weight decay

该参数是损失函数中的正则化项的系数。正则化用于防止过拟合,因为当网络出现过拟合现象时网络权值逐渐变大的,而正则化能降低权重。因此,为了避免出现overfitting,会给损失函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和(L2正则化)用来惩罚大的权值。权值衰减惩罚项使得权值收敛到较小的绝对值,而惩罚大的权值。因为大的权值会使得系统出现过拟合,降低其泛化性能。caffe中默认是使用L2正则化。L1正则化的正则化项是权重的绝对值。

深度学习中的momentum和weight decay参数_第2张图片

你可能感兴趣的:(深度学习)