梯度下降算法及其他算法的介绍

1.  为什么梯度方向是斜率最大的方向?[1]

    (1-1)斜率最大的方向命名为梯度方向

    (1-2)二维函数f(x,y)的偏导数为x,y轴方向的导数,但是我们需要找任意方向的,所以需要单位向量确定方向

    (1-3)二维函数f(x,y)任意方向的导数定义


任意方向斜率的定义

            (1-4)引用:标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅可比矩阵的一个特殊情况。 在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。 梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。

2.  梯度下降算法

    (2-1)定义:一个一阶最优化算法,通常也称为最速下降法。一次性使用所有样本量。

    (2-2)为什么梯度的方向与等高线切线方向垂直?[2]


梯度下降算法及其他算法的介绍_第1张图片


3.  随机梯度下降[4]:

    (3-1)随机梯度下降:在计算下降最快的方向时随机选一个样本数据进行计算,而不是扫描全部训练数据集,这样加快了迭代速度。但是,随机梯度下降并不是沿着J(θ)下降最快的方向收敛,而是以震荡的方式趋向极小值。余凯教授在龙星计划课程中用“曲线救国”来形容随机梯度下降的这种特点。

    (3-2)为什么有时候梯度的方向计算时又不垂直?[3]


梯度下降算法及其他算法的介绍_第2张图片

    梯度不垂直的原因与成本函数的梯度函数有关系,也即对权值向量求导后的函数画出来的曲线。

(3-3)随机梯度下降表达式:


梯度下降算法及其他算法的介绍_第3张图片

4.  批梯度下降[5]

    (4-1)定义:

    (4-2)批梯度下降表达式:


梯度下降算法及其他算法的介绍_第4张图片


批梯度下降和随机梯度下降在三维图上对比如下:


梯度下降算法及其他算法的介绍_第5张图片

5.几种最新的成本函数优化算法对比[6]


梯度下降算法及其他算法的介绍_第6张图片


[1]  为什么梯度反方向是函数值局部下降最快的方向?https://zhuanlan.zhihu.com/p/24913912

[2]  为什么梯度的方向与等高线切线方向垂直?https://zhuanlan.zhihu.com/p/27731819

[3]  如果不归一化,各维特征的跨度差距很大,目标函数就会是“扁”的, 在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路, https://www.zhihu.com/question/37129350/answer/70964527#

[4]  线性回归、梯度下降(Linear Regression、Gradient Descent). https://www.cnblogs.com/BYRans/p/4700202.html

[5]  详解梯度下降法的三种形式BGD、SGD以及MBGD. https://zhuanlan.zhihu.com/p/25765735?utm_source=wechat_session&utm_medium=social&from=singlemessage

[6]梯度百科http://kb.kkyuyin.com/item/74958b80d75e772b7bec1b4eeff72d72.html?from=smsc&uc_param_str=dnntnwvepffrgibijbpr

你可能感兴趣的:(梯度下降算法及其他算法的介绍)