矩阵理论| 特殊矩阵:正定矩阵

正定矩阵Positive definite matrix

实数域中,满足 x T A x > 0 ( x ≠ 0 ) \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xTAx>0(x=0)的矩阵 A \boldsymbol{A} A就是正定矩阵;
在复数域,满足 x H A x > 0 ( x ≠ 0 ) \mathbf{x}^{H} \boldsymbol{A} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xHAx>0(x=0)的矩阵 A \boldsymbol{A} A就是正定矩阵(下面谈论的都是复正定矩阵

注意,当谈论“正定矩阵”,一般默认的前提是矩阵已经是“(实)对称/(复)Hermite矩阵”

ps.
①严格意义上,对于实矩阵,正定矩阵不一定是对称的,而应该说:“实对称正定矩阵”通常简称为正定矩阵
因为从更广的定义上来说,只要满足 x T A x > 0 ( x ≠ 0 ) \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xTAx>0(x=0)就是正定矩阵
但是,我们习惯将对称性纳入正定矩阵的定义,一方面因为实对称正定矩阵拥有良好性质,另一个原因是实对称正定矩阵的分析就足以应付其他一般的正定矩阵(原理:任何矩阵 B \boldsymbol{B} B的二次型均可被化为一个对称矩阵的等价二次型: x T B x = 1 2 x T ( B + B T ) x \mathbf{x}^{T} \boldsymbol{B} \mathbf{x}=\frac{1}{2}\mathbf{x}^{T}(\boldsymbol{B}+\boldsymbol{B}^T)\mathbf{x} xTBx=21xT(B+BT)x,其中 A = 1 2 ( B + B T ) \boldsymbol{A}=\frac{1}{2}(\boldsymbol{B}+\boldsymbol{B}^T) A=21(B+BT)是对称矩阵)
②对于复矩阵,正定矩阵一定是Hermite矩阵:“复Hermite正定矩阵”=复正定矩阵
i.e. A \boldsymbol{A} A为Hermite矩阵    ⟺    \iff 对于任意 x ∈ C n \bold x\in\mathbb C^n xCn,二次型 x H A x \boldsymbol{x^HAx} xHAx为实数
原因详见:正定矩阵的性质与判别方法

正定矩阵的性质和判别

先简单回顾对称矩阵的特殊性质:
①特征值为实数;
②拥有一套正交特征向量;
③正 / 负主元的数目等于正 / 负特征值的数目

正定矩阵在此基础上,有以下良好性质:

  • A \mathbf A A为正定矩阵    ⟺    \iff 所有特征值都为正实数
    推论: A \mathbf A A的行列式>0(必然可逆)、迹>0
  • A \mathbf A A为正定矩阵    ⟺    \iff 所有主元pivot都为正实数
  • A \mathbf A A为正定矩阵    ⟺    \iff 左上角的所有任意k阶(1<=k<=n)顺序主子式(i.e.左上角的子矩阵的行列式)均为正
  • A \mathbf A A为正定矩阵    ⟺    \iff 存在可逆矩阵 B \mathbf B B使得 A = B H B \mathbf A=\mathbf B^H\mathbf B A=BHB
    ps. 对任意矩阵 B \mathbf B B B H B \mathbf B^H\mathbf B BHB B B H \mathbf B\mathbf B^H BBH至少为半正定矩阵(原因: B H B \mathbf B^H\mathbf B BHB可能不满秩,从而有0特征值)
    B \mathbf B B列满秩 ⇒ B H B \Rightarrow \mathbf B^H\mathbf B BHB为正定矩阵(原因: x T ( B T B ) x = ( B x ) T B x \mathbf{x}^{T} (\mathbf B^T \mathbf B)\mathbf{x}=(\mathbf B\mathbf{x})^T\mathbf B\mathbf{x} xT(BTB)x=(Bx)TBx,而 B \mathbf B B列满秩时必有 ( B x ) ≠ 0 (\mathbf B\mathbf{x})\neq 0 (Bx)=0
    B \mathbf B B为可逆方阵    ⟺    B H B \iff \mathbf B^H\mathbf B BHB为正定矩阵

证明:
必要性:令 B = Λ 1 / 2 U H B=\Lambda^{1 / 2} U^{H} B=Λ1/2UH,则有 A = U Λ U H = ( U Λ 1 / 2 ) ( Λ 1 / 2 U H ) ) = B H B A= U \Lambda U^{H}=\left(U \Lambda^{1 / 2}\right)\left(\Lambda^{1 / 2} U^{H}\right) )=B^{H} B A=UΛUH=(UΛ1/2)(Λ1/2UH))=BHB
充分性:若 B \mathbf B B可逆, B \mathbf B B的零空间为{0},则对任意非零向量 x \mathbf x x必有 y = B x ≠ 0 \mathbf{y}=\mathbf B\mathbf{x} \neq \mathbf{0} y=Bx=0,进而有 x H A x = x H B H B x = y H y > 0 \mathbf{x}^{H} A \mathbf{x}=\mathbf{x}^{H} B^{H} B \mathbf{x}=\mathbf{y}^{H} \mathbf{y}>0 xHAx=xHBHBx=yHy>0

  • 上一条的推论: A \mathbf A A为正定矩阵    ⟺    \iff 存在可逆下三角矩阵 L \mathbf L L使得 A = L L H \mathbf A=\mathbf L\mathbf L^H A=LLH(Cholesky 分解)
    详见:Cholesky 分解
  • A \mathbf A A为正定矩阵 ⇒ \Rightarrow A − 1 \mathbf A^{-1} A1 A k \mathbf A^{k} Ak A \mathbf A A的任意主子阵(取出若干个第i行+第i列组合得到的子矩阵)都是正定矩阵
  • A \mathbf A A为正定矩阵 ⇒ \Rightarrow d e t ( A ) ≤ a 11 . . . a n n det(\mathbf A)\le a_{11}...a_{nn} det(A)a11...ann

这些性质的证明:正定矩阵的性质与判别方法

正定矩阵的几何意义

(下面在实数域讨论,在复数域可以类似推广)

正定矩阵 A \boldsymbol{A} A满足 x T A x > 0 ( x ≠ 0 ) \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xTAx>0(x=0),其几何意义可以从三个角度来解释:

  1. 非零向量 x \mathbf{x} x与线性变换后的向量 A x \boldsymbol{A} \mathbf{x} Ax的夹角< π / 2 \pi/2 π/2
    x T A x > 0 ⇒ x T ( A x ) > 0 ⇒ cos ⁡ θ = x T ( A x ) ∥ x ∥ ∥ A x ∥ > 0 ⇒ θ < π / 2 \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}>0 \Rightarrow\mathbf{x}^{T} (\boldsymbol{A} \mathbf{x})>0\Rightarrow\cos \theta=\frac{\mathbf{x}^{T}(A \mathbf{x})}{\|\mathbf{x}\|\|A \mathbf{x}\|}>0\Rightarrow\theta<\pi/2 xTAx>0xT(Ax)>0cosθ=x∥∥AxxT(Ax)>0θ<π/2
    画图理解:
    对于任意向量 x \mathbf{x} x(我们画出了与之垂直的超平面 P P P),变换后的向量 A x \boldsymbol{A} \mathbf{x} Ax x \mathbf{x} x都位于超平面 P P P的同一侧 A x \boldsymbol{A} \mathbf{x} Ax不是位于超平面 P P P内/ P P P的另一侧)矩阵理论| 特殊矩阵:正定矩阵_第1张图片
    而正交投影矩阵满足 A 2 = A = A H \mathbf A^2=\mathbf A=\mathbf A^H A2=A=AH,这是半正定矩阵(因为存在酉矩阵 U \mathbf U U使得正交投影矩阵满足 A = A H = U U H \mathbf A=\mathbf A^H=\mathbf U\mathbf U^H A=AH=UUH,则 x H A x = ( U H x ) H ( U H x ) ≥ 0 \mathbf{x}^{H} \boldsymbol{A} \mathbf{x}=(\mathbf U^H\mathbf x)^H(\mathbf U^H\mathbf x)\geq 0 xHAx=(UHx)H(UHx)0);因而存在这样向量 x \mathbf{x} x,其投影后的结果 A x \boldsymbol{A} \mathbf{x} Ax在与 x \mathbf{x} x垂直的超平面 P P P
  2. 正定矩阵对应的线性变换,在一组合适的标准正交基下观察,表现为分別拉伸各主轴
    由相似对角化 A = Q Λ Q T \boldsymbol{A=Q\Lambda Q^T} A=QΛQT得,这个坐标系的主轴就是特征向量,而伸缩量就是特征值(全部大于0)
  3. 也可以将 A = Q Λ Q T \boldsymbol{A=Q\Lambda Q^T} A=QΛQT解释为旋转+拉伸+旋转(旋转这个说法不是非常准确,前提是正交矩阵 Q Q Q的行向量必须适当排序 ,否则也可能包含镜像变换)

你可能感兴趣的:(矩阵理论笔记,矩阵,线性代数)