梯度下降法之方向导数,梯度的理解

  1. 方向导数的意义:表征函数沿任意方向会增加多少,减少多少的量,表征函数在任意方向变化的快慢
  2. **学习率:**定义每次参数更新的幅度。
  3. 梯度: 函数的偏导数,梯度是一个向量,有大小与方向。
  4. 方向导数与梯度的关系:方向导数 = 梯度的模 * 角度值
    角度值为0:与梯度方向同向,函数增加最快
    角度值为180:与梯度方向反向,函数减少最快
    角度值为90:函数变化为0
    方向导数,梯度关系的详细解释可参考下面博文:
    https://blog.csdn.net/qq_40707407/article/details/80101501
    梯度下降法(批量梯度下降法)的核心思想:通过对损失函数求偏导,找到损失函数变化最快的方向(梯度方向的反方向),由于损失函数是凸函数,必然有最小值。能够快速收敛至能够使损失函数最小值对应的超参数值,完成模型训练。
    **梯度下降法:**梯度下降法是求解无约束优化问题最常用的方法。
    梯度下降法迭代终止的条件:(1)达到设定的迭代次数 (2)目标函数的变化量很小
    梯度下降法使用的tips: (1) 学习率要小心设置,太大容易引起震荡,太小收敛速度太慢。(2)梯度下降法对特征的取值范围敏感。所以要对特征去量纲。
    注:方向导数是通过梯度定义的,梯度是通过偏导定义的。偏导表征函数沿某个变量变化的快慢。梯度表征函数沿所有变量对应方向变化的快慢。方向导数表征梯度在任意方向变化快慢。
    梯度下降法的局限性:(1)计算量大,每次迭代需要计算所有样本的目标函数。
    (2)当样本中存在冗余信息时,正负梯度抵消。

随机梯度下降法: 梯度下降法的改进版本,每次随机只计算一个样本的目标函数。
**随机梯度下降法的局限性:**相对于梯度下降,随机梯度下降法需要更小的学习率,更多的迭代次数。但是,随机梯度下降法在前期的迭代效果显著。

小批量梯度下降法: 介于梯度下降法与随机梯度下降法之间,综合了以上两种梯度下降法的优点。

你可能感兴趣的:(机器学习)