如何理解梯度方向是增长最快的方向

前言:

最近在看关于机器学习的书,里面提到了梯度下降算法,里面提到了梯度方向是增长最快的方向,虽然说很早之前就知道了这个概念,但是一直也没有仔细想过为什么,今天突然想弄懂这个问题,所以有了这篇博客。以下纯属个人理解,如有不足之处,还请多多指正。


说梯度之前,我们先来说说导数,回顾一下我们十分熟悉的一元函数,导数定义如下

preview

转化成图像如下图所示

如何理解梯度方向是增长最快的方向_第1张图片

众所周知,对于一元函数有如下结论成立

  1. 导数为正,函数递增,导数为负,函数递减
  2. 导数值的绝对值越大,图像越“抖”,也就是图像变化越快

上面是很重要很基础的结论,类似的我们可以将其推广到多元函数,针对多元函数,我们引入了偏导数的定义,这里以二元函数为例

 

这里关于偏导数的定义就不再赘述了,我们需要知道,过空间曲面上的一点,切线有无数条若满足相应条件,是会存在一个切平面的,如下图所示

如何理解梯度方向是增长最快的方向_第2张图片

其实我们所熟知的偏导数对应切平面中两条比较特殊的切线(平行x轴、y轴的两条),

如何理解梯度方向是增长最快的方向_第3张图片

那么其他的切线(不平行坐标轴)对应什么呢?因此数学上引入了方向导数的概念(类似于偏导数的定义),知乎中的一篇文章将的比较清楚,这里就不再啰嗦了

如何理解梯度方向是增长最快的方向_第4张图片

关于方向导数有一个比较重要的定理,知道就可以了(对证明有兴趣的可以找相关资料,《数学分析(下)》有详细证明)

注意有些时候最后面可以写成,注意角所表示的含义

也就是说,方向导数可以与偏导数联系在一起。方向导数归根结底也是一种导数,所以对多元函数(不仅仅是二元函数)也有下述结论成立

  1. 方向导数为正,则函数在该方向上递增;方向导数为负,则函数在该方向上递减
  2. 方向导数的值的绝对值越大,说明函数在该方向上变化的程度越大

上面的结论当然不够严谨,严谨一点应该这样说

  1. 若方向导数在某点处的值为正,则函数在该方向的局部邻域内是递增的(可以利用极限的局部保号性来证明,感兴趣可以试试,只能说在某一方向上,应该方向导数的定义就是基于某个方向定义的,可以结合偏导数来理解)
  2. 类似的,若方向导数在某点处的值为正,则函数在该方向的局部邻域内是递减
  3. 如何理解上面的第二条结论呢,举个例子,函数在P点处,L1方向上的方向导数为3,L2方向上的方向导数为-9,那么我们就可以说函数在P点处,L2方向上的变化比L1的变化快(这里的变化不是指增加或者减少,是增量,也就是变化量),这是因为-9的绝对值比3要大,这一点可以结合一元函数来理解。

根据上述结论我们知道,多元函数在某点处的方向导数有无数个,每一个方向导数的值代表了在该方向上的变化程度,我们要寻找在某点处函数变化最快的方向就可以转化成寻找在该点处方向导数的绝对值最大时对应的那个方向


那么接下来我们就是寻找方向导数最大时对应的方向了,还是以二元函数为例,上面我们提到了公式

引入下列记号

I表示u的方向,那么A表示的是什么呢?为了很简单的表示,我们称A是函数f(x,y)在点P处的梯度,记为grad f,很显然梯度是一个向量

所以有

上式中A和I的模是固定的,变化的是夹角,所以要想方向导数最大,只需要等于1即可,也就是说,当夹角为0度或者180度是,函数在该点处的变化最快,变化率为A的模,也就是梯度的模(因为I是单位向量,模为1)。也就是说,夹角为0度时,即方向相同是,函数增长最快(此时方向导数为正,利用上面说过的结论,导数为正,函数增加),夹角为180度时,也就是梯度的反方向,函数下降最快。

到这里就解释了为什么梯度方向是函数增长最快的方向了

你可能感兴趣的:(深度学习)