带动量的随机梯度下降法_梯度下降法(SGD)原理解析及其改进优化算法

带动量的随机梯度下降法_梯度下降法(SGD)原理解析及其改进优化算法_第1张图片
  1. 梯度下降法原理
  2. 梯度下降背后的原理(泰勒展开推导)
  3. BGD、SGD的工程选择上的tricks(eg. batch_size的设置)
  4. SGD相关改进优化算法(Momentum、Adam...)

一、梯度下降法原理

  1. 梯度---在数学上的定义

表示某一函数在该点处方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

带动量的随机梯度下降法_梯度下降法(SGD)原理解析及其改进优化算法_第2张图片

2. 梯度下降法迭代步骤

梯度下降的一个直观的解释:
比如我们在一座大山上的 某处位置,由于我们不知道怎么下山,于是决定 走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度, 沿着梯度的负方向,也就是当前最陡峭的位置向下走一步

你可能感兴趣的:(带动量的随机梯度下降法)