学习笔记:学习率和术语解释

学习笔记:学习率和术语解释_第1张图片学习笔记:学习率和术语解释_第2张图片

详细了解理想的学习速率。

一维空间中的理想学习速率是 1f(x)″(f(x) 对 x 的二阶导数的倒数)。

二维或多维空间中的理想学习速率是海森矩阵(由二阶偏导数组成的矩阵)的倒数。

广义凸函数的情况则更为复杂。


学习率的优化:

学习率为0.1 的情况

学习笔记:学习率和术语解释_第3张图片

学习率为1的情况

学习笔记:学习率和术语解释_第4张图片

练习 2

您可以使用更高的学习速率更快地到达最低点吗?将学习速率设为 1,然后不断按“STEP”(步)按钮,直到梯度下降法到达最低点。这次走了多少步?

答案

梯度下降法到达曲线的最低点需要 6 步。


学习率为4的情况

学习笔记:学习率和术语解释_第5张图片

练习 3

如果采用更大的学习速率会怎么样?重置该图,将学习速率设为 4,然后尝试到达损失曲线的最低点。这次发生了什么情况?

答案

梯度下降法从未到达最低点。结果是,步长逐渐增加。每一步都在曲线上来回跳跃,沿着曲线向上爬,而不是降到底部。


何为最优,1.6的情况:

学习笔记:学习率和术语解释_第6张图片

该数据的“金发姑娘般刚刚好”的学习速率为 1.6,1 步就能到达最低点。


最后说点术语:

lr :  学习率

loss :损失

acc: 准确度

epoch、 iteration和batchsize,这三个的区别:

 ( 1)batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;

(2)iteration:1个iteration等于使用batchsize个样本训练一次;

(3)epoch:1个epoch等于使用训练集中的全部样本训练一次;

举个例子,训练集有1000个样本,batchsize=10,那么:

训练完整个样本集需要:

100次iteration,1次epoch。





你可能感兴趣的:(ai学习)