李宏毅机器学习笔记 3.误差和梯度下降

最近在跟着Datawhale组队学习打卡,学习李宏毅的机器学习/深度学习的课程。
课程视频:https://www.bilibili.com/video/BV1Ht411g7Ef
开源内容:https://github.com/datawhalechina/leeml-notes
本篇文章对应视频中的P5-8。另外,最近我也在学习邱锡鹏教授的《神经网络与深度学习》,会补充书上的一点内容。

通过上一次课2.回归,我们了解到机线性回归中的(1)损失函数、(2)梯度下降、(3)过拟合和正则化。本篇文章主要介绍误差和梯度下降

文章目录

      • 1. 误差
      • 2. 梯度下降
        • 2.1 调整学习率 Adagrad
        • 2.2 随机梯度下降 stochastic gradient descent
        • 2.3 特征缩放 feature scaling


1. 误差

Q: 为什么简单模型bias大,variance小?
A: 简单的模型函数集的space比较小,可能space里面就没有包含靶心;复杂的模型函数集的space比较大,可能就包含的靶心,但足够多的模型就可能得到真正的 f ∗ f^* f
李宏毅机器学习笔记 3.误差和梯度下降_第1张图片


2. 梯度下降

2.1 调整学习率 Adagrad

Q:Adagrad中参数的更新速度(或者说步伐)由两个方面决定,一个是学习率 η \eta η, 另一个是梯度 g g g。当梯度 g g g越大的时候,步伐应该越大,但下面分母又导致当梯度 g g g越大的时候,步伐会越小。
李宏毅机器学习笔记 3.误差和梯度下降_第2张图片
A: (1)直观解释:分母部分使用过去的梯度 g i g^i gi 来造成反差的效果。(2)在只有2个参数的方程式中(在多个参数的时候就不一定成立了),在某一点踏出去最好的步伐与这一点微分的大小成正比,即梯度越大离最优点越远。我们可以看到下图在 x 0 x_0 x0 处的最好的步伐和微分都是与 2 a x 0 + b 2ax_0+b 2ax0+b成正比的。
李宏毅机器学习笔记 3.误差和梯度下降_第3张图片

2.2 随机梯度下降 stochastic gradient descent

损失函数每次更新参数不需要处理训练集所有的数据,而只考虑一个样本 x n x^n xn
李宏毅机器学习笔记 3.误差和梯度下降_第4张图片

2.3 特征缩放 feature scaling

如果两个输入的分布的范围差别很大,如几十倍,建议把他们的范围缩放,使得不同输入的范围是一样的。否则,输入范围大的参数对y的影响会更大。

  • 例如下图右边是两个参数scaling比较接近,图接近圆形。
  • 左边的梯度下降并不是向着最低点方向走的,而是顺着等高线切线法线方向走的。但绿色就可以向着圆心(最低点)走,这样做参数更新也是更有效率。
    李宏毅机器学习笔记 3.误差和梯度下降_第5张图片

你可能感兴趣的:(机器学习)