《李宏毅·机器学习》读书笔记(三)Gradient Descent 知识点补充2

image.png

今天再把梯度下降的视频看了一遍,再次整理了一便思路。梯度下降主要是围绕 批量梯度随机梯度 来进行讲解。其中包含了学习率,也就是移动的步长。通过批量梯度下降 Adagrad算法实现的讲解,再对比过渡到 随机梯度 下降。最后介绍特征缩放的方式使得梯度下降算法更快地收敛。

关注到两个比较有趣的地方:

  1. 再讲解Adagrad算法的时候,为什么不计算二次微分,而使用前N个一次微分平均的开方作为分母?
  2. 通过泰勒展开式来说明梯度下降的意义(这部分看得似懂非懂,有点晕)

视频总结的文章可以查看 《李宏毅·机器学习》读书笔记(三)Gradient Descent

你可能感兴趣的:(《李宏毅·机器学习》读书笔记(三)Gradient Descent 知识点补充2)