Jacobian矩阵、Hessian矩阵和多元函数的二阶导数

Jacobian矩阵和Hessian矩阵

设,于是关于的jocobian矩阵定义为
J=\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\begin{bmatrix}\frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&\cdots&\frac{\partial y_1}{\partial x_m}\\\frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&\cdots&\frac{\partial y_2}{\partial x_m}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial y_n}{\partial x_1}&\frac{\partial y_n}{\partial x_2}&\cdots&\frac{\partial y_n}{\partial x_m}\end{bmatrix}

设,则关于的Hessian矩阵定义为

如果具有二阶连续偏导数,则二阶偏导数分母可交换,即,这意味着Hessian矩阵此时是一个对称阵。

命题:Hessian矩阵等价于梯度的Jacobian矩阵

考虑的梯度

于是其Jacobian矩阵

显然这是关于的Hessian矩阵,记为。█

方向二阶导数

函数在的方向导数,其中是的方向余弦向量,其中,假若将归一化,即成为单位向量,令,于是。此外设是关于的Hessian矩阵。

命题:设是单位向量,在方向的二阶导数是。

因为是单位向量,于是在方向的一阶导数是
于是二阶导数为
\begin{split}\mathbf{d}^T\nabla\left(\mathbf{d}^T\nabla f\right)&=\mathbf{d}^T\nabla \left(\sum_{i=1}^n\frac{\partial f}{\partial x_i}d_i\right)\\&=\mathbf{d}^T\left[\sum_{i=1}^n\frac{\partial f}{\partial x_i\partial x_j}d_i\right]_{j,1}^{n\times 1}\\&=\sum_{i,j=1}^n\frac{\partial f}{\partial x_i\partial x_j}d_id_j\end{split}
这个结果是一个二次型的形式,我们可以写成,即。█

从证明中可以看出。特别要注意,后者是拉普拉斯算子,运算结果是一个标量。
其证明是,
\begin{split} \nabla\left(\mathbf{d}^T\nabla f\right)&=\nabla\left(\sum_{i=1}^{n}\frac{\partial f}{\partial x_i}d_i\right)\\ &=\begin{bmatrix}\sum_{i=1}^n\frac{\partial f}{\partial x_i \partial x_1}d_i\\\sum_{i=1}^n\frac{\partial f}{\partial x_i \partial x_2}d_i\\\vdots\\\sum_{i=1}^n\frac{\partial f}{\partial x_i \partial x_n}d_i\end{bmatrix}=\sum_{i=1}^n\begin{bmatrix}\frac{\partial f}{\partial x_i \partial x_1}\\\frac{\partial f}{\partial x_i \partial x_2}\\\vdots\\\frac{\partial f}{\partial x_i \partial x_n}\end{bmatrix}d_i\\ &=\sum_{i=1}^nH_{i,:}^Td_i=\left[H_{1,:}^T,\cdots,H_{n,:}^T\right]^T\mathbf{d}\\ &=\begin{bmatrix}H_{1,:}\\H_{2,:}\\\vdots\\H_{n.:}\end{bmatrix}\mathbf{d}=H\mathbf{d} \end{split}

命题:H特征向量方向的二阶导数是对应的特征值

现在已知在单位向量方向的二阶导数是,如果是的特征向量,那么,即此时方向的二阶导数就是对应的特征值。█

现在假定是一个实对称矩阵,则根据相关定理,实对称矩阵一定能够进行正交分解,即它的特征向量互相正交,我们取它的一组单位特征向量构成列空间的一组标准正交基,对于任意一个单位方向向量,设它在这组基下的坐标为,于是,从而在这个方向的二阶导数是
因为是相互正交的基,所以,于是,即其它方向的二阶导数是所有特征值的加权平均数,加权系数向量是,这些权重位于0和1之间。为此我们考虑在二维平面上的直角坐标系,向量是单位向量,则所有这些单位向量的集合是一个单位圆,构成对等关系。显然单位圆上任意点的向量都可以进行正交分解,并且在x、y轴上的投影范围是,从而系数平方的范围就是,推广到一般向量,就是一个单位超球上的点在各个基向量的投影坐标的平方范围是。

此外,与夹角越小的特征向量权重越大。为此,考虑特征向量与的内积:

上式第二个等号成立是因为是一组标准正交基,因此互异内积是0,自内积是1。
另一方面,,于是我们有,因此夹角越小,权重越大。这也证明了权重的平方范围

命题:设在某点邻域内有二阶连续偏导数,且,如果在此点处的Hessian矩阵是正定的,那么在处取得极小值;如果是负定矩阵,取极大值;如果是不定矩阵,则不取极值。

不严格的说明:由上面的讨论知,在点处,沿任意单位向量的二阶导数是,如果是正定矩阵,则,换句话说沿着任意方向的二阶导数都是正的,即该点在任意方向的切片图像上都是极小值点,所以它也是函数的极小值点。对于负定矩阵同理。

当是不定矩阵时,有正有负,这意味着某方向切片图像中该点是极大值,而另一方向的切片图像,该点是极小值,因此这个点不是函数的极值点。█

引理:对称阵A为正定矩阵的充分必要条件是A的各阶主子式都为正,是负定矩阵的充分必要条件是,奇数阶主子式为负,偶数阶主子式是正。

这一点对于判定二元函数的Hessian矩阵的正定性很有用(前提是二元函数是有连续二阶偏导数,即Hessian矩阵是对称阵)

  • Hessian矩阵是正定阵 以及
  • Hessian矩阵是负定阵 以及
  • Hessian矩阵是不定阵

你可能感兴趣的:(Jacobian矩阵、Hessian矩阵和多元函数的二阶导数)