深度学习中学习率的选择

learning rate是深度学习模型中进行训练的一个比较关键的因素,也是通常我们设计模型中基本都会讨论和实验的一个参数。

 

大家都知道,梯度具有方向和大小,反向传播中,梯度下降算法乘以一个称为学习速率的变量,以确定下一个点的位置。

学习率设置过小,收敛速度会非常慢,学习率设置过大,则会越过最低点,无法达到最低点。

深度学习中学习率的选择_第1张图片

 

Lr的选择是纯粹的超参问题,实际上也就是try,不过你如果直到损失函数的梯度较小,你可以放心的试着采用更大的学习速率,已补偿较小的梯度并获得更大的步长。

因此选择lr,也就是不断试的过程,基本范围大概就是0.1,0.01,0.001,0.0001这样子,一个数量级一个数量级的尝试就可以了。直到找到最优的学习率。

有一个playground可以比较明显的阐述这个问题。

https://developers.google.com/machine-learning/crash-course/training-and-test-sets/playground-exercise

当学习速率设为3时,测试损失明显高于训练损失。

通过降低学习率(例如,降至0.001),测试损失会下降到非常接近训练损失的值。在大多数运行中,增加批量大小不会显著影响训练损失或测试损失。然而,在一小部分运行中,将批量大小增加到20或者更高会导致测试损失略低于训练损失。

将训练数据和测试数据之比从50%降至10%大幅度降低了训练集中数据点的个数。由于数据太少,较高的批次大小和学习速度会导致训练模型沿着曲线无规律的跳动(在最低点上方反复跳跃)

 

你可能感兴趣的:(深度学习)