2.2.6 学习率衰减

学习率衰减

加快神经网络的另一个办法就是随着时间推移慢慢减少学习率。我们将这个称之为学习率衰减

2.2.6 学习率衰减_第1张图片

如图中蓝色线所示,当mini-batch不大的时候,噪声会比较明显。最后不会精确地收敛,而是在最小值附近不断地波动。但是如果我们不断减少学习率,最后情况就如同图中绿线所示,最后会在最小值附近很小的一块区域不断波动,而不会在比较大的区域里。

减小学习率的方法如下:

2.2.6 学习率衰减_第2张图片

我们需要在第一代的时候遍历一遍数据,第一次遍历整个数据集称为第一代,第二次遍历整个数据集称为第二代。我们一般的计算公式是

α=11+decayrateepochnumα0 α = 1 1 + d e c a y − r a t e ∗ e p o c h − n u m ∗ α 0

其中decay-rate称为衰减率,这个也是我们需要调整的超参数。从图中我们可以看到,如果decay-rate的值是1,随着epoch-num的数值不断增加,学习率在不断下降。

除了这个学习率衰减公式,还有别的衰减公式。
2.2.6 学习率衰减_第3张图片

吴教主深度学习和神经网络课程总纲

你可能感兴趣的:(深度学习)