【math】梯度(gradient)、雅克比矩阵(Jacobian)、海森矩阵(Hessian)

梯度(Gradient):

wiki上的定义:

The gradient of f is defined as the unique vector field whose dot product with any vector v at each point x is the directional derivative of f along v. That is,


f 的梯度,是与在每一点x的任意向量v的点积为f沿着v的方向的导数的唯一的向量场。

说的真复杂,但是关键信息是,对于一个固定的x而言,梯度是一个向量。

直角坐标系中,梯度是这样一个向量:

其分量由f在各个基的方向上的偏导组成


笛卡尔坐标系中,就是:

   

沿着i方向的导数,就是i轴方向的分量


和一阶泰勒公式类似:


梯度和df之间关系:

http://en.wikipedia.org/wiki/Gradient#Differential_or_.28exterior.29_derivative

由定义:


记df是差分函数 x->dfx

把x看做变量,

R看做列向量空间,df可以看做一个行向量,


于是dfx就是一个矩阵相乘(df*列向量空间的基)的形式。梯度就是对应的列向量

由于v是任意的,所以函数相等,其元素也相等。





Jacobian:

对于值为标量的多变量的函数 f(x),我们使用梯度,但是如果是值为向量的多变量的函数怎么办呢

雅克比矩阵实际上是对于梯度的一种泛化,

记m为函数值的维度,记n为变量维度

m = 1时,函数的雅克比矩阵就是梯度

m = 1而且n=1时,函数的雅克比矩阵和梯度就是简单的导数。


这里wiki给出了一个小例子,在图像变换(变量是位置x和y)中,已知某一位置的变换情况,就可以利用雅克比矩阵来估计周围情况,这和用一阶导近似某一点周围的函数值是一样的。

The Jacobian can also be thought of as describing the amount of "stretching", "rotating" or "transforming" that a transformation imposes locally. For example, if  is used to transform an image, the Jacobian of  describes how the image in the neighborhood of  is transformed.



http://en.wikipedia.org/wiki/Jacobian_matrix#Dynamical_systems

a stationary point is related to the eigenvalues of JF(x0)


Hession:

某种意义上说,梯度和雅克比矩阵都是一种一阶导数(二者针对的函数的值不同)

二阶导数是什么呢?

一个值为标量的多变量函数的梯度的雅克比矩阵就是二阶导数,也就是Hessian矩阵


关系如下:

  = .

类似泰勒二阶公式:

如果f(x)二阶可导且连续,则有:


于是Hessian是对称矩阵。



你可能感兴趣的:(【math】梯度(gradient)、雅克比矩阵(Jacobian)、海森矩阵(Hessian))