动手学习深度学习-Pytorch:夯基础

一 随机梯度下降为什么可以代替梯度下降最终实现收敛?

动手学习深度学习-Pytorch:夯基础_第1张图片

二 学习率为什么一般设置的比较小?

动手学习深度学习-Pytorch:夯基础_第2张图片
可以看到只有保证(学习率*f(x))的倒数足够小的时候,才能带人泰勒展开式进行近似计算,保证损失函数在迭代过程中逐渐收敛,而当学习率太大时,使前面提到的一阶泰勒展开公式不再成立:这时我们无法保证迭代 x x x会降低 f ( x ) f(x) f(x)的值。

你可能感兴趣的:(机器学习)