李宏毅ML03—Gradient Descent

Gradient Descent

Tip1: Turning Your Learning Rate

  • Learning Rate 会影响梯度下降的效果,太小的话会走得很慢,太大的话有可能会跨过最低点。
  • Learning Rate 的选择
  • 一开始可以选大一点,等到后来接近最小值点了,可以选小一点,但这个是比较模糊的说法
  • 比如
  • 但是没有一种算法是万金油,所以要根据不同的情况选择不同的算法

AdaGrad 算法


  • 化简得

Tip2: Make the Training Faster—SGD

Stochastic Gradient Descent(随机梯度下降法)

  • 只选取一个样本进行梯度下降
  • 这是三种下降法里最快的一种,BGD走一步,SGD能走几十步了
  • 但是由于只选取一个样本,所以难免会受到更大的噪音干扰,迭代次数会较其他两种更多,下降的过程中路线会逞折线前进,但大体上是朝着下降的方向前进

Mini-Batch Gradient Descent

  • 选取一小组样本进行梯度下降

Batch Gradient Descent

  • 每一次跌倒都用所有的样本

Feature Scaling(特征归一化)

  • 把不同的参数的Scale(尺寸的数量级)放在同一个数量级上比价
  • 参数在不同尺度上的比较

  • 样本r的i参数的归一化方式:
    • 是所有样本的i参数的平均值
    • 是所有样本的i参数的标准差

Saddle Point(鞍点)

  • 当Loss Function小到一定程度时,并不能代表已经接近了Minimal,有可能是在鞍点附近。
  • 鞍点

你可能感兴趣的:(李宏毅ML03—Gradient Descent)