正定矩阵与半正定矩阵

目录

1.基本定义

2.正定矩阵和半正定矩阵的直观理解

3.协方差矩阵是半正定矩阵

3.1分量形式证明:

3.2整体形式证明:

4.写在最后


1.基本定义

正定和半正定这两个词的英文分别为positive definite和positive semi-definite。

在考虑矩阵由实数构成的前提下,正定矩阵和半正定矩阵的定义如下:

【定义1】给定一个大小为n×n的实对称矩阵A,若对于任意长度为n的非零行向量x,有x^TAx>0恒成立,则矩阵A是一个正定矩阵。

证明正定矩阵过程利用矩阵乘法再结合定义即可得证。

【定义2】给定一个大小为n×n的实对称矩阵A,若对于任意长度为n的非零行向量x,有x^TAx\geq0恒成立,则矩阵A是一个正定矩阵。


2.正定矩阵和半正定矩阵的直观理解

先给出几何理解的结论:若给定任意一个正定矩阵A\in\mathbb{R}^{n\times n}和一个非零向量x\in\mathbb{R}^n,则两者相乘得到的向量y=A\boldsymbol{x}\in\mathbb{R}^n与向量x的夹角恒小于\frac\pi2。(等价于x^TAx>0

可从向量的内积公式中理解:对于\cos\langle\boldsymbol{x},\boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T}\boldsymbol{y}}{||\boldsymbol{x}||\cdot||\boldsymbol{y}||},可将y视为Ax,那么可将正定矩阵的定义与内积联系,其中x、y的二范数恒大于0。

同样地,若给定任意一个正定矩阵A\in\mathbb{R}^{n\times n}和一个非零向量x\in\mathbb{R}^n,则两者相乘得到的向量y=A\boldsymbol{x}\in\mathbb{R}^n与向量x的夹角恒小于或等于\frac\pi2。(等价于x^TAx\geq0


3.协方差矩阵是半正定矩阵

3.1分量形式证明:

对于n个随机变量X=\begin{bmatrix}X_1&X_2&\cdots&X_n\end{bmatrix}^T和数学期望\mu=\begin{bmatrix}\mu_1&\mu_2&\cdots&\mu_n\end{bmatrix}^T,其协方差矩阵为:

\Sigma=\begin{bmatrix}E\Big[\big(X_1-\mu_1\big)(X_1-\mu_1\big)\big]&E\Big[\big(X_1-\mu_1\big)(X_2-\mu_2\big)\big]&\cdots&E\Big[\big(X_1-\mu_1\big)(X_\kappa-\mu_n\big)\big]\\E\Big[\big(X_2-\mu_2\big)(X_1-\mu_1\big)\big]&E\Big[\big(X_2-\mu_2\big)(X_2-\mu_2\big)\big]&\cdots&E\Big[\big(X_2-\mu_2\big)(X_\kappa-\mu_n\big)\big]\\\cdots&\cdots&\cdots\\E\Big[\big(X_n-\mu_v\big)(X_1-\mu_1\big)\big]&E\Big[\big(X_e-\mu_v\big)(X_2-\mu_2\big)\big]&\cdots&E\Big[\big(X_e-\mu_v\big)(X_\kappa-\mu_v)\big]\end{bmatrix}

证明\Sigma半正定,即证对于任意向量y=\begin{bmatrix}{y_{1}}&{y_{2}}&{\cdots}&{y_{n}}\end{bmatrix}^{T},有:y^{\tau}\Sigma y\geq0

对于y^{\tau}\Sigma

y^7\Sigma=\begin{bmatrix}y_1&y_2&\cdots&y_n\end{bmatrix}\begin{bmatrix}E\Big[(X_1-\mu_1)(X_1-\mu_1)\Big]&E\Big[(X_1-\mu_1)(X_2-\mu_2)\Big]&\cdots&E\Big[(X_1-\mu_1)(X_n-\mu_n)\Big]\\E\Big[(X_2-\mu_2)(X_1-\mu_1)\Big]&E\Big[(X_2-\mu_2)(X_2-\mu_2)\Big]&\cdots&E\Big[(X_2-\mu_2)(X_n-\mu_n)\Big]\\\cdots&\cdots&\cdots&\cdots\\E\Big[(X_n-\mu_n)(X_1-\mu_1)\Big]&E\Big[(X_n-\mu_n)(X_2-\mu_2)\Big]&\cdots&E\Big[(X_n-\mu_n)(X_n-\mu_n)\Big]\end{bmatrix}

将得到一个1×n的矩阵,其中第k个元素为:(利用了数学期望的线性性质)

\sum_{i=1}^{n}y_{i}E\Bigl[\bigl(X_{i}-\mu_{i}\bigr)\bigl(X_{k}-\mu_{k}\bigr)\Bigr]=E\biggl[\sum_{i=1}^{n}y_{i}\bigl(X_{i}-\mu_{i}\bigr)\bigl(X_{k}-\mu_{k}\bigr)\biggr]=E\biggl[\biggl(\sum_{i=1}^{n}y_{i}\bigl(X_{i}-\mu_{i}\bigr)\biggr)\bigl(X_{k}-\mu_{k}\bigr)\biggr]

那么,

y^7\Sigma=\left[E\Bigg[\Bigg(\sum_{i=1}^ny_i\left(X_i-\mu_i\right)\Bigg)(X_1-\mu_1)\Bigg]\quad E\Bigg[\Bigg(\sum_{i=1}^ny_j\left(X_j-\mu_i\right)\Bigg)(X_2-\mu_2)\Bigg]\quad\cdots\quad E\Bigg[\Bigg(\sum_{i=1}^ny_i\left(X_i-\mu_i\right)\Bigg)(X_n-\mu_n)\Bigg]\Bigg]\right.

那么,

\begin{aligned}y^{T}\Sigma y&=\sum_{k=1}^{n}E\left[\left(\sum_{i=1}^{n}y_{i}\left(X_{i}-\mu_{i}\right)\right)\left(X_{k}-\mu_{k}\right)\right]y_{k}=E\left[\sum_{k=1}^{n}\left(\sum_{i=1}^{n}y_{i}\left(X_{i}-\mu_{i}\right)\right)\left(X_{k}-\mu_{k}\right)y_{k}\right]\end{aligned}

=E\left[\left(\sum_{i=1}^ny_i\left(X_i-\mu_i\right)\right)\left(\sum_{k=1}^n\left(X_k-\mu_k\right)y_k\right)\right]

令随机变量Z=\sum_{i=1}^{n}y_{i}\left(X_{i}-\mu_{i}\right)=\sum_{k=1}^{n}\left(X_{k}-\mu_{k}\right)y_{k}

则:y^T\Sigma y=E\Big(Z^2\Big)\ge0

3.2整体形式证明:

对于n个随机变量X=\begin{bmatrix}X_1&X_2&\cdots&X_n\end{bmatrix}^T和数学期望\mu=\begin{bmatrix}\mu_1&\mu_2&\cdots&\mu_n\end{bmatrix}^T,协方差\Sigma=E{\left[\left(X-\mu\right){\left(X-\mu\right)}^T\right]},对任意向量y有:

\begin{aligned} &y^T\Sigma y=y^TE\biggl[\bigl(X-\mu\bigr)\bigl(X-\mu\bigr)^T\biggr]y \\ &=E\left[\left.y^T\left(X-\mu\right)(X-\mu\right)^Ty\right] \\ &=E\left[\left(\left(X-\mu\right)^Ty\right)^T\left(\left(X-\mu\right)^Ty\right)\right] \\ &=E\left[\left\|\left(X-\mu\right)^Ty\right\|^2\right]\geq0 \end{aligned}

4.写在最后

本文仅个人学习使用,不用于任何商业用途,欢迎有兴趣的同学多多交流。后续如果学习过程中遇到新的问题,将在此补充!

本文在写作过程中,在融合了自己的思考理解的同时,参考了以下同学的资料,非常感谢!

浅谈「正定矩阵」和「半正定矩阵」 - 知乎 (zhihu.com)

证明:协方差矩阵是半正定矩阵_证明协方差矩阵半正定-CSDN博客

你可能感兴趣的:(矩阵)