线性代数及其应用:第五章 特征值与特征向量

文章目录

  • 第五章 特征值与特征向量
    • 1.特征值与特征向量
      • 1.1. 求解特征值与特征向量
      • 1.2. 性质
    • 2. 特征值分解
      • 2.1. 特征值分解:
      • 2.2. 特征值分解应用:差分方程
        • 2.2.1. 重要差分方程:Markov方阵
      • 2.3. 特征值分解应用:微分方程
    • 3. 复数矩阵
      • 3.1. 三个典型的复数矩阵
    • 4. 相似变换
      • 4.1. 矩阵相似的应用
        • 4.1.1 解微分方程
        • 4.1.2 解差分方程
      • 4.2. 矩阵分解
      • 4.3. Normal矩阵
      • 4.4. 谱定理(spectral thorem)
      • 4.5. Jordan标准型-最一般形式的最简型
        • 4.5.1. 应用
      • 4.6. 涉及相似的矩阵分解

  前言:这篇blog是《 Linear Algebra and Its Applications》第五章的一些学习笔记。

第五章 特征值与特征向量

1.特征值与特征向量

  对方阵 A n × n A_{n\times n} An×n,其特征方程表示为 A x = λ x     ( x ≠ 0 ) Ax=\lambda x~~~(x \neq 0) Ax=λx   (x̸=0)其中 λ \lambda λ是标量,也叫特征值(特征根,本征值), x x x是向量,也叫特征向量。

  其几何意义:特征向量的方向是一个特殊的方向,在这个方向上进行矩阵 A A A的线性变换,等于在这个方向伸缩 λ \lambda λ倍。

  方阵一定有特征值,因为方阵的特征多项式在复数域内一定能分解成一次因式,但是方阵不一定有实特征值

1.1. 求解特征值与特征向量

  求解 ( A − λ I ) x = 0 (A-\lambda I)x=0 (AλI)x=0要求 x x x A − λ I A-\lambda I AλI的零空间上,所以零空间不为0,所以 d e t ( A − λ I ) = 0 det(A-\lambda I)=0 det(AλI)=0求解该方程即可得到特征值 λ \lambda λ,把 λ \lambda λ代回 ( A − λ I ) x = 0 (A-\lambda I)x=0 (AλI)x=0求解该方程得到特征向量 x x x

1.2. 性质

  假设 A n × n = { a i j } A_{n \times n}=\{a_{ij}\} An×n={aij}有特征值 λ n \lambda_{n} λn与特征向量 x n x_{n} xn,则 ∣ a 11 − λ     a i j   a 22 − λ         …   a i j     a n n − λ ∣ = ( λ 1 − λ ) ( λ 2 − λ ) … ( λ n − λ ) \left | \begin{matrix} a_{11}-\lambda & ~ & ~ & a_{ij} \\ ~ & a_{22}-\lambda & ~ & ~ \\ ~ & ~ & \dots & ~ \\ a_{ij} & ~ & ~ & a_{nn}-\lambda \\ \end{matrix}\right | =(\lambda_{1}-\lambda)(\lambda_{2}-\lambda)\dots (\lambda_{n}-\lambda) a11λ  aij a22λ     aij  annλ=(λ1λ)(λ2λ)(λnλ)

下面证明性质会用到上式。

性质一: λ 1 ⋅ λ 2 ⋅ λ 3 … λ n = d e t ( A ) \lambda_{1}·\lambda_{2}·\lambda_{3}\dots\lambda_{n}=det(A) λ1λ2λ3λn=det(A)
证明:把 λ = 0 \lambda=0 λ=0代入上式即可证明。

性质二: λ 1 + λ 2 + λ 3 + ⋯ + λ n = T r ( A ) = a 11 + a 22 + ⋯ + a n n \lambda_{1}+\lambda_{2}+\lambda_{3}+\dots+\lambda_{n}=Tr(A)=a_{11}+a_{22}+\dots +a_{nn} λ1+λ2+λ3++λn=Tr(A)=a11+a22++ann
证明:假设把上式等号左右展开,看 λ n − 1 \lambda^{n-1} λn1项的系数,左边 = ( − 1 ) n − 1 ( a 11 + a 22 + ⋯ + a n n ) λ n − 1 =(-1)^{n-1}(a_{11}+a_{22}+\dots +a_{nn})\lambda^{n-1} =(1)n1(a11+a22++ann)λn1=右边= ( − 1 ) n − 1 ( λ 1 + λ 2 + ⋯ + λ n ) λ n − 1 (-1)^{n-1}(\lambda_{1}+\lambda_{2}+\dots +\lambda_{n})\lambda^{n-1} (1)n1(λ1+λ2++λn)λn1,证毕。

性质三: f ( A ) f(A) f(A)的特征值是 f ( λ i ) f(\lambda_{i}) f(λi) f ( ⋅ ) f(·) f()是多项式函数
证明: f ( A ) = a n A n + a n − 1 A n − 1 + ⋯ + a 1 A + a 0 f(A)=a_{n}A^{n}+a_{n-1}A^{n-1}+\dots +a_{1}A+a_{0} f(A)=anAn+an1An1++a1A+a0两边右乘特征向量 x x x
f ( A ) x = a n A n x + a n − 1 A n − 1 x + ⋯ + a 2 A 2 x + a 1 A x + a 0 x = a n λ A n − 1 x + a n − 1 λ A n − 2 x + ⋯ + a 2 λ A x + a 1 λ x + a 0 x = a n λ 2 A n − 2 x + a n − 1 λ 2 A n − 3 x + ⋯ + a 2 λ 2 x + a 1 λ x + a 0 x … = a n λ n x + a n − 1 λ n − 1 x + ⋯ + a 2 λ 2 x + a 1 λ x + a 0 x = f ( λ ) x \begin{aligned} f(A)x & =a_{n}A^{n}x+a_{n-1}A^{n-1}x+\dots +a_{2}A^{2}x+a_{1}Ax+a_{0}x \\ & = a_{n}\lambda A^{n-1}x+a_{n-1}\lambda A^{n-2}x+\dots +a_{2}\lambda Ax+a_{1}\lambda x+a_{0}x \\ & = a_{n}\lambda^{2} A^{n-2}x+a_{n-1}\lambda^{2} A^{n-3}x+\dots +a_{2}\lambda^{2}x+a_{1}\lambda x+a_{0}x \\ & \dots \\ & = a_{n}\lambda^{n}x+a_{n-1}\lambda^{n-1}x+\dots +a_{2}\lambda^{2}x+a_{1}\lambda x+a_{0}x \\ & = f(\lambda)x \end{aligned} f(A)x=anAnx+an1An1x++a2A2x+a1Ax+a0x=anλAn1x+an1λAn2x++a2λAx+a1λx+a0x=anλ2An2x+an1λ2An3x++a2λ2x+a1λx+a0x=anλnx+an1λn1x++a2λ2x+a1λx+a0x=f(λ)x

性质四:不同特征根对应特征向量一定线性无关。
证明:设 λ 1 \lambda_{1} λ1的一个特征向量 x 1 x_{1} x1 λ 2 \lambda_{2} λ2的一个特征向量 x 2 x_{2} x2 λ 1 ≠ λ 2 \lambda_{1} \neq \lambda_{2} λ1̸=λ2
(1) c 1 x 1 + c 2 x 2 = 0 c_{1}x_{1}+c_{2}x_{2}=0\tag{1} c1x1+c2x2=0(1)(1)左乘A得 (2) c 1 A x 1 + c 2 A x 2 = c 1 λ 1 x 1 + c 2 λ 2 x 2 = 0 c_{1}Ax_{1}+c_{2}Ax_{2}=c_{1}\lambda_{1}x_{1}+c_{2}\lambda_{2}x_{2}=0\tag{2} c1Ax1+c2Ax2=c1λ1x1+c2λ2x2=0(2)

(1)左乘 λ 1 \lambda_{1} λ1 (3) c 1 λ 1 x 1 + c 2 λ 1 x 2 = 0 c_{1}\lambda_{1}x_{1}+c_{2}\lambda_{1}x_{2}=0 \tag{3} c1λ1x1+c2λ1x2=0(3)

(2)-(3)得 c 2 ( λ 2 − λ 1 ) x 2 = 0 c_{2}(\lambda_{2}-\lambda_{1})x_{2}=0 c2(λ2λ1)x2=0,由于 λ 2 ≠ λ 1 \lambda_{2}\neq \lambda_{1} λ2̸=λ1 x 2 ≠ 0 x_{2}\neq 0 x2̸=0,故 c 2 = 0 c_{2}=0 c2=0,重复上面方法,消去 c 2 c_{2} c2,可得 c 1 = 0 c_{1}=0 c1=0,故(1)式子成立一定有 c 1 = c 2 = 0 c_{1}=c_{2}=0 c1=c2=0,所以 x 1 , x 2 x_{1},x_{2} x1,x2线性无关。

性质五:Hamilton-Cayley定理,设 f ( λ ) = ∣ λ E − A ∣ = λ n + b 1 λ n − 1 + ⋯ + b n − 1 λ + b n f(\lambda)=|\lambda E-A|=\lambda^{n}+b_{1}\lambda^{n-1}+\dots +b_{n-1}\lambda+b_{n} f(λ)=λEA=λn+b1λn1++bn1λ+bn f ( A ) = ∣ λ E − A ∣ = A n + b 1 A n − 1 + ⋯ + b n − 1 A + b n E = 0 f(A)=|\lambda E-A|=A^{n}+b_{1}A^{n-1}+\dots +b_{n-1}A+b_{n}E=0 f(A)=λEA=An+b1An1++bn1A+bnE=0

2. 特征值分解

2.1. 特征值分解:

  设 A A A的特征值为 λ n \lambda_{n} λn,特征向量为 x n x_{n} xn,令 Λ = [ λ 1     0   λ 2         …   0     λ n ] \Lambda =\left [ \begin{matrix} \lambda_{1} & ~ & ~ & 0 \\ ~ & \lambda_{2} & ~ & ~ \\ ~ & ~ & \dots & ~ \\ 0 & ~ & ~ & \lambda_{n} \\ \end{matrix} \right ] Λ=λ1  0 λ2     0  λn

S = [ ∣ ∣   ∣ x 1 x 2 … x n ∣ ∣   ∣ ] S=\left [ \begin{matrix} | & | & ~ & | \\ x_{1} & x_{2} & \dots & x_{n} \\ | & | & ~ & | \\ \end{matrix} \right ] S=x1x2  xn

A ⋅ S = ( A ⋅ x 1 , A ⋅ x 2 , … , A ⋅ x n ) = ( λ 1 ⋅ x 1 , λ 2 ⋅ x 2 , … , λ n ⋅ x n ) = S ⋅ Λ \begin{aligned} A·S & =(A·x_{1}, A·x_{2}, \dots ,A·x_{n}) \\ & = (\lambda_{1} ·x_{1}, \lambda_{2} ·x_{2}, \dots ,\lambda_{n} ·x_{n})=S·\Lambda \end{aligned} AS=(Ax1,Ax2,,Axn)=(λ1x1,λ2x2,,λnxn)=SΛ

如果 S S S可逆,则 A = S Λ S − 1 A=S \Lambda S^{-1} A=SΛS1

这就把 A A A矩阵分解成对角矩阵,但是要求 S S S可逆,等价于要求 S S S的列向量线性无关,等价于要求 A A A至少有n个线性无关的特征向量,我们需要把这 n n n个线性无关的特征向量放到 S S S的列向量。

  根据1.2.的性质四,我们知道不同特征根的特征向量一定线性无关,所以如果我们知道 A A A n n n个不同的特征根 λ \lambda λ,则A一定可以进行特征值分解,若存在特征根一样的情况,特征向量是否线性无关要具体分析,也有可能有n个线性无关的特征向量,例如下面的矩阵就可以进行特征值分解。 [ 0 0 0 0 0 0 0 0 0 ] \left [ \begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{matrix} \right ] 000000000下面的矩阵不可以进行特征值分解。
[ 0 1 0 0 0 0 0 0 0 ] [ 0 1 0 0 0 1 0 0 0 ] \left [ \begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{matrix} \right ] \left [ \begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \\ \end{matrix} \right ] 000100000000100010

如果你知道Jordan标准型(后面会讲),就会很清楚这一点。

2.2. 特征值分解应用:差分方程

  如果 A A A可以进行特征值分解 A = S Λ S − 1 A=S\Lambda S^{-1} A=SΛS1,则 A K = S Λ k S − 1 A^{K}=S\Lambda^{k} S^{-1} AK=SΛkS1 Λ \Lambda Λ是对角矩阵,所以其k次方就是对角线元素分别取k次方。
  知道这个前提后,假设我们要求解斐波那契数列, F k = F k + 1 + F k + 2 , F 0 = 0 , F 1 = 1 F_{k}=F_{k+1}+F_{k+2},F_{0}=0,F_{1}=1 Fk=Fk+1+Fk+2,F0=0,F1=1,如果我们想求 F n F_{n} Fn的值,构造 u k = ( F k + 1 F k ) u_{k}=\left ( \begin{matrix} F_{k+1} \\ F_{k} \end{matrix} \right ) uk=(Fk+1Fk) u k + 1 = ( F k + 2 F k + 1 ) = ( F k + 1 + F k F k + 1 ) = ( 1 1 1 0 ) ( F k + 1 F k ) = A ⋅ u k u_{k+1}=\left ( \begin{matrix} F_{k+2} \\ F_{k+1} \end{matrix} \right ) = \left ( \begin{matrix} F_{k+1} +F_{k}\\ F_{k+1} \end{matrix} \right ) = \left ( \begin{matrix} 1 & 1\\ 1 & 0 \end{matrix} \right ) \left ( \begin{matrix} F_{k+1}\\ F_{k} \end{matrix} \right )=A·u_{k} uk+1=(Fk+2Fk+1)=(Fk+1+FkFk+1)=(1110)(Fk+1Fk)=Auk

所以 u k = A u k − 1 = A 2 u k − 2 = ⋯ = A k u 0 = S Λ k S − 1 u 0 u_{k}=Au_{k-1}=A^{2}u_{k-2}=\dots=A^{k}u_{0}=S\Lambda^{k}S^{-1}u_{0} uk=Auk1=A2uk2==Aku0=SΛkS1u0其中 u 0 = ( F 1 F 0 ) = ( 1 0 ) u_{0}=\left ( \begin{matrix} F_{1}\\ F_{0} \end{matrix} \right )=\left ( \begin{matrix} 1\\ 0 \end{matrix} \right ) u0=(F1F0)=(10)我们在求得 u n = S Λ n S − 1 u 0 u_{n}=S\Lambda^{n}S^{-1}u_{0} un=SΛnS1u0后,取 u n u_{n} un的第二个元素即是 F n F_{n} Fn的值。

2.2.1. 重要差分方程:Markov方阵

  如果 A A A是Markov方阵(状态转移矩阵),则 A = { a i j } n × n A=\{a_{ij}\}_{n\times n} A={aij}n×n满足, ∑ i = 1 n a i k = 1 , 0 ≤ a i k ≥ 1 \sum\limits_{i=1}^{n}a_{ik}=1,0\leq a_{ik} \geq 1 i=1naik=10aik1 a i j a_{ij} aij表示从状态 j j j转移到状态 i i i的转移概率。以二阶为例,假如我们知道一个初始状态 [ X 0 Y 0 ] \left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ] [X0Y0]

且知道Markov方阵(状态转移矩阵) A = [ a 00 a 01 a 10 a 11 ] A = \left [ \begin{matrix} a_{00} & a_{01} \\ a_{10} & a_{11} \end{matrix} \right ] A=[a00a10a01a11]则我们可以知道下一时刻的状态为: A [ X 0 Y 0 ] = [ a 00 a 01 a 10 a 11 ] [ X 0 Y 0 ] = [ X 0 a 00 + Y 0 a 01 Y 0 a 10 + Y 0 a 11 ] = [ X 1 Y 1 ] A \left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ] = \left [ \begin{matrix} a_{00} & a_{01} \\ a_{10} & a_{11} \end{matrix} \right ]\left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ] = \left [ \begin{matrix} X_{0}a_{00} +Y_{0}a_{01}\\ Y_{0}a_{10} +Y_{0}a_{11} \end{matrix} \right ] = \left [ \begin{matrix} X_{1} \\ Y_{1} \end{matrix} \right ] A[X0Y0]=[a00a10a01a11][X0Y0]=[X0a00+Y0a01Y0a10+Y0a11]=[X1Y1]

具体例子可以看blog,这样能够更好理解,这里暂时不讲。

  Markov方阵一定有特征根1,且 λ = 1 \lambda=1 λ=1对应稳态, λ < 1 \lambda<1 λ<1对应暂态,如果 λ = 1 \lambda=1 λ=1是重根,则有多个稳态,最终的稳态是是这些稳态的线性组合。

2.3. 特征值分解应用:微分方程

  对于带有方阵的微分方程 ∂ u ∂ t = A u \frac{\partial u}{\partial t} = Au tu=Au注意这里的方阵A是作为系数,和对矩阵求导不一样。如果我们要求的是不带方阵的,我们知道的微分方程 ∂ y ∂ x = a y \frac{\partial y}{\partial x} = ay xy=ay,则我们可以猜到结果是 y = c ⋅ e a x y= c·e^{ax} y=ceax c c c是常数,同理我们猜测带有方阵的微分方程的解是 u ( t ) = e A t ⋅ u ( 0 ) u(t)=e^{At}·u(0) u(t)=eAtu(0),向量 u ( 0 ) u(0) u(0)是一个初值,和常数 c c c的作用类似,我们对 e A t e^{At} eAt进行泰勒展开(矩阵的很多运算可以类比标量的运算,但不是全部,泰勒展开就是可以类比的) e A t = I + A t + ( A t ) 2 2 ! + ( A t ) 3 3 ! + … = S ( I + Λ t + ( Λ t ) 2 2 ! + ( Λ t ) 3 3 ! + …   ) S − 1 = S e Λ t S − 1 = S [ e λ 1 t 0 e λ 2 t … 0 e λ n t ] S − 1 \begin{aligned} e^{At} & =I+At+\frac{(At)^{2}}{2!}+\frac{(At)^{3}}{3!}+\dots \\ & = S(I+\Lambda t+\frac{(\Lambda t)^{2}}{2!}+\frac{(\Lambda t)^{3}}{3!}+\dots)S^{-1} \\ & = Se^{\Lambda t}S^{-1} \\ & = S \left [\begin{matrix} e^{\lambda_{1}t} & & & 0\\ & e^{\lambda_{2}t} & & \\ & & \dots & \\ 0 & & & e^{\lambda_{n}t} \\ \end{matrix} \right ]S^{-1} \end{aligned} eAt=I+At+2!(At)2+3!(At)3+=S(I+Λt+2!(Λt)2+3!(Λt)3+)S1=SeΛtS1=Seλ1t0eλ2t0eλntS1

所以微分方程的解是 u ( t ) = S e Λ t S − 1 u ( 0 ) = ∑ i = 1 N c i e λ t x i u(t)=Se^{\Lambda t}S^{-1} u(0)=\sum \limits_{i=1}^{N}c_{i}e^{\lambda t}x_{i} u(t)=SeΛtS1u(0)=i=1Ncieλtxi

其中 c = S − 1 u ( 0 ) c=S^{-1}u(0) c=S1u(0) c i c_{i} ci c c c的第 i i i个元素, x i x_{i} xi S S S中第 i i i个列向量,也是 λ i \lambda_{i} λi对应的特征向量。

例如我们想求解微分方程 y ′ ′ ′ − 3 y ′ ′ + 2 y ′ = 0 y'''-3y''+2y'=0 y3y+2y=0则我们可以构造如下的矩阵微分方程 u ′ = [ y ′ ′ ′ y ′ ′ y ′ ] = [ 3 − 2 0 1 0 0 0 1 0 ] [ y ′ ′ y ′ y ] = A u u'=\left [ \begin{matrix} y''' \\ y'' \\ y' \end{matrix} \right ]=\left [ \begin{matrix} 3 & -2 & 0 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{matrix} \right ]\left [ \begin{matrix} y'' \\ y'\\ y \end{matrix} \right ]=Au u=yyy=310201000yyy=Au

  我们进一步讨论微分方程,在 t → ∞ t\rightarrow \infty t时的稳定性,我们知道微分方程的解可以表示成 u ( t ) = ∑ i = 1 N c i e λ t x i = c 1 e λ t x 1 + c 2 e λ t x 2 + … c n e λ t x n u(t)=\sum \limits_{i=1}^{N}c_{i}e^{\lambda t}x_{i}=c_{1}e^{\lambda t}x_{1}+c_{2}e^{\lambda t}x_{2}+\dots c_{n}e^{\lambda t}x_{n} u(t)=i=1Ncieλtxi=c1eλtx1+c2eλtx2+cneλtxn。所以微分方程的解有如下三种情况:
情况一:如果所有 λ i \lambda_{i} λi的实部小于 0 0 0,则 u ( t ) u(t) u(t)稳定到 0 0 0
情况二:如果 λ 1 \lambda_{1} λ1的实部等于 0 0 0,其余 λ i \lambda_{i} λi的实部小于 0 0 0,则 u ( t ) u(t) u(t)稳定到 c 1 x 1 c_{1}x_{1} c1x1
情况三:如果任一 λ i \lambda_{i} λi的实部大于 0 0 0,则 u ( t ) u(t) u(t)发散;

  特别的,对于 2 × 2 2\times 2 2×2方阵 A A A,由于其特征方程 d e t ( A − λ I ) = λ 2 − T r a c e ( A ) λ + d e t ( A ) det(A-\lambda I)=\lambda^{2}-Trace(A)\lambda + det(A) det(AλI)=λ2Trace(A)λ+det(A)

要求其迹 T r a c e ( A ) < 0 Trace(A)<0 Trace(A)<0,行列式 d e t ( A ) > 0 det(A)>0 det(A)>0 A A A构成的微分方程 ∂ u ∂ t = A u \frac{\partial u}{\partial t} = Au tu=Au的解才稳定。

3. 复数矩阵

  复数矩阵就是元素含有复数的矩阵。在复数域,相当于把实数域的转置T操作,变成了复数域的厄米H操作,厄米操作就是对矩阵求共轭转置。

  类比转置操作,厄米操作有如下性质:
性质一:如果复向量 x , y x,y x,y正交,则 x H y = 0 x^{H}y=0 xHy=0
性质二:复向量内积, ∣ ∣ x ∣ ∣ 2 = x H x = ∣ x 1 ∣ 2 + ∣ x 1 ∣ 2 + … ||x||^{2}=x^{H}x=|x_{1}|^{2}+|x_{1}|^{2}+\dots x2=xHx=x12+x12+
性质三:对复矩阵 A , B A,B A,B,则 ( A B ) H = B H A H (AB)^{H} = B^{H}A^{H} (AB)H=BHAH

  复数矩阵最有名的应用,就是FFT(快速傅里叶变换)。

3.1. 三个典型的复数矩阵

  复数域:厄米矩阵A: A = A H A=A^{H} A=AH,反厄米矩阵A: A = − A H A=-A^{H} A=AH,酉矩阵U: U U H = I UU^{H}=I UUH=I

  对应实数域:实对称矩阵A: A = A T A=A^{T} A=AT,反实对称矩阵A: A = − A T A=-A^{T} A=AT,正交矩阵Q: Q Q T = I QQ^{T}=I QQT=I

4. 相似变换

  对于方阵 A , B A,B A,B,如果存在可逆矩阵 M M M,使得 B = M − 1 A M B=M^{-1}AM B=M1AM则称方阵 B B B与方阵 A A A相似,从 A A A B B B的变换称为相似变换。

  如果 A , B A,B A,B相似,则 A , B A,B A,B有相同的特征值,如果同时 A A A有特征向量 X X X,则对应的 B B B有特征向量 M − 1 X M^{-1}X M1X。证明如下: A X = λ X , 且 A = M B M − 1 AX=\lambda X,且A=MBM^{-1} AX=λXA=MBM1 M B M − 1 X = λ X MBM^{-1}X=\lambda X MBM1X=λX所以 B ( M − 1 X ) = λ ( M − 1 X ) B(M^{-1}X)=\lambda (M^{-1}X) B(M1X)=λ(M1X)证毕。

  可以说,相似变换把 n × n n\times n n×n矩阵空间分割成若干子空间,每个子空间可以当做一个类别,子空间内部矩阵相似,因为相似是可以传递的。相似的矩阵有相同的Jordan标准型。第二章中,我们已经证明,如果我们给定线性变换前后,两个向量空间的基,则这个线性变换可以用矩阵表示,特殊的,如果我们的矩阵是方阵,那么线性变换其实是在一个向量空间内部,针对同一组基的变换。下面我们会证明,相似的矩阵其实是同一个线性变换,只不过选定的基不同

证明:假设我们有相似变换 B = M − 1 A M B=M^{-1}AM B=M1AM

我们的线性变换是 A ~ \widetilde{A} A ,原先的基是 [ u 1 , u 2 … u n ] [u_{1}, u_{2}\dots u_{n}] [u1,u2un],则 A ~ ( [ u 1 , u 2 … u n ] ) = [ u 1 , u 2 … u n ] A \widetilde{A}([u_{1}, u_{2}\dots u_{n}])=[u_{1}, u_{2}\dots u_{n}]A A ([u1,u2un])=[u1,u2un]A

新的基 [ v 1 , v 2 … v n ] [v_{1}, v_{2}\dots v_{n}] [v1,v2vn]与原先的基有变换 [ v 1 , v 2 … v n ] = [ u 1 , u 2 … u n ] M 则 [ v 1 , v 2 … v n ] M − 1 = [ u 1 , u 2 … u n ] [v_{1}, v_{2}\dots v_{n}]=[u_{1}, u_{2}\dots u_{n}]M \\ 则[v_{1}, v_{2}\dots v_{n}]M^{-1}=[u_{1}, u_{2}\dots u_{n}] [v1,v2vn]=[u1,u2un]M[v1,v2vn]M1=[u1,u2un]

那么我们把线性变换作用到新的 v v v基有 A ~ ( [ v 1 , v 2 … v n ] ) = A ~ ( [ u 1 , u 2 … u n ] M ) = A ~ ( [ u 1 , u 2 … u n ] ) M = [ u 1 , u 2 … u n ] A M = [ v 1 , v 2 … v n ] M − 1 A M = [ v 1 , v 2 … v n ] B \begin{aligned} \widetilde{A}([v_{1}, v_{2}\dots v_{n}]) & =\widetilde{A}([u_{1}, u_{2}\dots u_{n}]M) \\ & = \widetilde{A}([u_{1}, u_{2}\dots u_{n}])M \\ & = [u_{1}, u_{2}\dots u_{n}]AM \\ & = [v_{1}, v_{2}\dots v_{n}]M^{-1}AM \\ & = [v_{1}, v_{2}\dots v_{n}]B \\ \end{aligned} A ([v1,v2vn])=A ([u1,u2un]M)=A ([u1,u2un])M=[u1,u2un]AM=[v1,v2vn]M1AM=[v1,v2vn]B

所以,针对线性变换 A ~ \widetilde{A} A ,如果我们限定变换前后的基为 u u u基,则该线性变换可以用矩阵 A A A表示;如果我们限定变换前后的基为 v v v基,则该线性变换可以用矩阵 B B B表示。

证毕。

4.1. 矩阵相似的应用

  我们可以利用矩阵相似变换,把矩阵变成对角矩阵,以方便我们的进一步求解。

4.1.1 解微分方程

  求解微分方程 d u d t = A u \frac{du}{dt}=Au dtdu=Au

如果我们知道矩阵 A A A对角相似矩阵 B B B,满足 B = M − 1 A M B=M^{-1}AM B=M1AM

则我们可以求得 v v v满足 u = M v u=Mv u=Mv,则 M d v d t = A M v M\frac{dv}{dt}=AMv Mdtdv=AMv进一步化简得

d v d t = M − 1 A M v = B v \frac{dv}{dt}=M^{-1}AMv=Bv dtdv=M1AMv=Bv

由于 B B B是对角矩阵,我们可以轻易求得 v v v的取值,进而求得 u u u的值。

4.1.2 解差分方程

  求解差分方程 u k + 1 = A u k u_{k+1}=Au_{k} uk+1=Auk

如果我们知道矩阵 A A A对角相似矩阵 B B B,满足 B = M − 1 A M B=M^{-1}AM B=M1AM

则我们可以求得 v v v满足 u = M v u=Mv u=Mv,则 M v k + 1 = A M v k Mv_{k+1}=AMv_{k} Mvk+1=AMvk进一步化简得

v k + 1 = M − 1 A M v k = B v k v_{k+1}=M^{-1}AMv_{k}=Bv_{k} vk+1=M1AMvk=Bvk

由于 B B B是对角矩阵,我们可以轻易求得 v v v,进而求得 u u u的值。

4.2. 矩阵分解

  对于任意方阵 A A A,一定有复特征值,可以被酉矩阵 U U U分解为上三角形式 U − 1 A U = T U^{-1}AU=T U1AU=T,证明过程较为麻烦,下面以 A 4 × 4 A_{4 \times 4} A4×4为例进行证明。

证明:
   A x 1 = λ 1 x 1 Ax_{1}=\lambda_{1} x_{1} Ax1=λ1x1 λ 1 \lambda_{1} λ1 A A A的特征值, x 1 x_{1} x1为特征向量。

  对 x 1 x_{1} x1进行单位化,得到 q 1 q_{1} q1同样满足 A q 1 = λ 1 q 1 Aq_{1}=\lambda_{1}q_{1} Aq1=λ1q1

  找到一组线性无关的向量 q 1 , b , c , d q_{1}, b, c, d q1,b,c,d,对其进行施密特正交化法得到 q 1 , q 2 , q 3 , q 4 q_{1},q_{2},q_{3},q_{4} q1,q2,q3,q4

  构造酉矩阵 U 1 = [ q 1 , q 2 , q 3 , q 4 ] U_{1}=[q_{1},q_{2},q_{3},q_{4}] U1=[q1,q2,q3,q4],则 A U 1 = [ A q 1 , A q 2 , A q 3 , A q 4 ] = [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] AU_{1}=[Aq_{1},Aq_{2},Aq_{3},Aq_{4}]=[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}] AU1=[Aq1,Aq2,Aq3,Aq4]=[λ1q1,Aq2,Aq3,Aq4]

  则 U 1 − 1 A U 1 = U 1 − 1 [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = U 1 H [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = [ q 1 H q 2 H q 3 H q 4 H ] [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = [ λ 1 ∗ ∗ ∗ 0 ∗ ∗ ∗ 0 ∗ ∗ ∗ 0 ∗ ∗ ∗ ] = [ λ 1 ∗ ∗ ∗ 0 0 F 3 × 3 0 ] \begin{aligned} U_{1}^{-1}AU_{1} & =U_{1}^{-1}[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}] \\ & = U_{1}^{H}[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}] \\ & = \left [ \begin{matrix} q_{1}^{H} \\ q_{2}^{H} \\ q_{3}^{H} \\ q_{4}^{H} \end{matrix}\right ] \left [ \begin{matrix} \lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4} \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & * & * & * \\ 0 & * & * & * \\ 0 & * & * & * \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & & F_{3 \times 3} & \\ 0 & & & \end{matrix}\right ] \end{aligned} U11AU1=U11[λ1q1,Aq2,Aq3,Aq4]=U1H[λ1q1,Aq2,Aq3,Aq4]=q1Hq2Hq3Hq4H[λ1q1,Aq2,Aq3,Aq4]=λ1000=λ1000F3×3

∗ * 表示未知值,也就是我们暂时不关心其取值,对右下角 F 3 × 3 F_{3 \times 3} F3×3矩阵,我们继续进行上面的操作,设 F q 1 ′ = λ 2 q 1 ′ Fq'_{1}=\lambda_{2}q'_{1} Fq1=λ2q1,利用施密特正交化法找到 q 2 ′ , q 3 ′ q'_{2},q'_{3} q2,q3,设 U 2 = [ 1 0 0 0 0 0 q 1 ′ q 2 ′ q 3 ′ 0 ] U_{2}=\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & & \\ 0 & q'_{1} & q'_{2} & q'_{3}\\ 0 & & & \end{matrix}\right ] U2=10000q10q20q3

  则 ( U 1 A U 1 − 1 ) U 2 = [ λ 1 ∗ ∗ ∗ 0 0 F 3 × 3 0 ] [ 1 0 0 0 0 0 q 1 ′ q 2 ′ q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 0 F q 1 ′ F q 2 ′ F q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 0 λ 2 q 1 ′ F q 2 ′ F q 3 ′ 0 ] \begin{aligned} (U_{1}AU_{1}^{-1})U_{2} & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & & F_{3 \times 3} & \\ 0 & & & \end{matrix}\right ] \left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & & \\ 0 & q'_{1} & q'_{2} & q'_{3}\\ 0 & & & \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & Fq'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & \lambda_{2}q'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ \end{aligned} (U1AU11)U2=λ1000F3×310000q10q20q3=λ1000Fq1Fq2Fq3=λ1000λ2q1Fq2Fq3

其中,第二个等号的求解利用了矩阵的分块乘法。又有 U 2 − 1 = [ 1 0 0 0 0 q 1 ′ H 0 q 2 ′ H 0 q 3 ′ H ] = U 2 H U_{2}^{-1}=\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & q_{1}^{'H} & \\ 0 & & q_{2}^{'H} & \\ 0 & & q_{3}^{'H} & \end{matrix}\right ]=U_{2}^{H} U21=100000q1Hq2Hq3H0=U2H

  所以 U 2 − 1 ( U 1 A U 1 − 1 ) U 2 = [ 1 0 0 0 0 q 1 ′ H 0 q 2 ′ H 0 q 3 ′ H ] [ λ 1 ∗ ∗ ∗ 0 0 λ 2 q 1 ′ F q 2 ′ F q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 λ 2 ∗ ∗ 0 0 0 0 F 2 × 2 ′ ] \begin{aligned} U_{2}^{-1}(U_{1}AU_{1}^{-1})U_{2} & =\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & q_{1}^{'H} & \\ 0 & & q_{2}^{'H} & \\ 0 & & q_{3}^{'H} & \end{matrix}\right ] \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & \lambda_{2}q'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ & =\left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & \lambda_{2} & * & * \\ 0 & 0 & & \\ 0 & 0 & & F'_{2\times 2} \end{matrix}\right ] \end{aligned} U21(U1AU11)U2=100000q1Hq2Hq3H0λ1000λ2q1Fq2Fq3=λ1000λ200F2×2

  继续对右下角的 F 2 × 2 ′ F'_{2\times 2} F2×2进行上述操作,找到 U 3 , U 4 U_{3},U_{4} U3,U4以及 λ 3 , λ 4 \lambda_{3},\lambda_{4} λ3,λ4,则存在 U = U 1 U 2 U 3 U 4 U=U_{1}U_{2}U_{3}U_{4} U=U1U2U3U4使得 U − 1 A U = [ λ 1 ∗ ∗ ∗ 0 λ 2 ∗ ∗ 0 0 λ 3 ∗ 0 0 0 λ 4 ] U^{-1}AU =\left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & \lambda_{2} & * & * \\ 0 & 0 & \lambda_{3}& * \\ 0 & 0 & 0 & \lambda_{4} \end{matrix}\right ] U1AU=λ1000λ200λ30λ4

  若 A A A特征向量与特征根为实数,则酉矩阵 U U U简化为正交矩阵 Q Q Q

4.3. Normal矩阵

  normal矩阵 N N N,满足 N H N = N N H N^{H}N=NN^{H} NHN=NNH,下面介绍六个基本normal矩阵。

  实数域:实对称矩阵A: A = A T A=A^{T} A=AT,反实对称矩阵A: A = − A T A=-A^{T} A=AT,正交矩阵Q: Q Q T = I QQ^{T}=I QQT=I

  复数域:厄米矩阵A: A = A H A=A^{H} A=AH,反厄米矩阵A: A = − A H A=-A^{H} A=AH,酉矩阵U: U U H = I UU^{H}=I UUH=I

  注意实数域与复数域是对应的。

  当然不只有上面几种normal矩阵,利用分块的性质,我们还可以轻松地构造,例如下面的矩阵也是normal矩阵 [ Q 0 0 A ] \left[ \begin{matrix} Q & 0 \\ 0 & A\end{matrix} \right ] [Q00A]

  normal矩阵的特殊之处在于,如果对normal矩阵进行4.2. 介绍的矩阵分解,我们得到的会是对角矩阵,即 U − 1 N U = T = D U^{-1}NU=T=D U1NU=T=D,下面简单证明。

证明:
T T H = U − 1 N U ⋅ U H N H U = U − 1 N N H U = U − 1 N H N U = U H N H U ⋅ U H N U = ( U H N U ) H ⋅ U H N U = T H T \begin{aligned} TT^{H} & =U^{-1}NU·U^{H}N^{H}U \\ & = U^{-1}NN^{H}U \\ & = U^{-1}N^{H}NU \\ & = U^{H}N^{H}U·U^{H}NU \\ & = (U^{H}NU)^{H}·U^{H}NU \\ & = T^{H}T \end{aligned} TTH=U1NUUHNHU=U1NNHU=U1NHNU=UHNHUUHNU=(UHNU)HUHNU=THT

  所以 T T T也是normal矩阵,对于一个normal矩阵,如是上三角矩阵,一定也是对角矩阵。证毕。

4.4. 谱定理(spectral thorem)

  我了解谱定理是从矩阵分解的角度了解的,感觉不是很彻底,这部分可能问题较大,可以不看。
  谱定理是4.2的矩阵分解,针对实对称矩阵的特殊形式。实对称矩阵可以被分解成 Q Λ Q T Q\Lambda Q^{T} QΛQT Λ \Lambda Λ是特征根对角矩阵(可重复), Q Q Q是正交的特征向量方阵。

  注意谱定理 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT与特征值分解 A = S Λ S − 1 A=S\Lambda S^{-1} A=SΛS1不同,特征值分解要求 S S S列向量线性无关,谱定理要求 Q Q Q列向量单位正交,注意线性无关不一定正交,例如 [ 1 , 1 , 0 ] [1,1,0] [1,1,0] [ 1 , 0 , 0 ] [1,0,0] [1,0,0],两者线性无关但不正交。

  谱定理使用时,要像4.2.的证明那样求解。

4.5. Jordan标准型-最一般形式的最简型

  Jordan标准型曾被认为是线性代数的巅峰,但由于其在实际应用中不宜使用,且随后发明了强大的SVD分解,Jordan标准型逐渐的被边缘化,SVD成为线性代数的巅峰。

  在矩阵特征值分解中,我们要求待分解矩阵 A n × n A_{n\times n} An×n至少有n个线性无关的特征向量,如果A至多有s个线性无关特征向量, s < n s < n s<n,这样的矩阵称为有缺陷的矩阵(defective matrices),但是这样的矩阵也可以用类似特征分解的方法分解到一个最简单形式,这个最简形式就是Jordan标准型。 J = M − 1 A M = [ J 1 … J s ] J=M^{-1}AM=\left [ \begin{matrix} J_{1} & & & \\ & \dots & & \\ & & & J_{s}\end{matrix} \right ] J=M1AM=J1Js

其中, J i , i = 1 … s J_{i},i=1\dots s Ji,i=1s称为Jordan块 J i = [ λ i 1 λ i 1 λ i … 1 λ i 1 λ i ] J_{i} = \left [ \begin{matrix} \lambda_{i} & 1 & & & & \\ & \lambda_{i} & 1 & & & \\ & & \lambda_{i} & & & \\ & & & \dots &1 & \\ & & & & \lambda_{i} & 1\\ & & & & & \lambda_{i}\\ \end{matrix} \right ] Ji=λi1λi1λi1λi1λi

在一个Jordan块中,有同样的特征值,对应同一个特征向量,不同的Jordan块对应不同的特征向量,但是不同的Jordan块可以有相同的特征值。可见对于一个有缺失的矩阵,其Jordan型会在每一个Jordan块的次对角线上放1。

  有相同的特征根的矩阵不一定相似,例如相似到下面的两个Jordan标准型的矩阵,特征值都为2。
[ 2 1 2 1 2 2 1 2 1 2 ] \left [ \begin{matrix} 2 & 1 & & & & \\ & 2 & 1 & & & \\ & & 2 & & & \\ & & & 2 &1 & \\ & & & & 2& 1\\ & & & & & 2\\ \end{matrix} \right ] 2121221212 [ 2 1 2 2 1 2 1 2 1 2 ] \left [ \begin{matrix} 2 & 1 & & & & \\ & 2 & & & & \\ & & 2 & 1 & & \\ & & & 2 &1 & \\ & & & & 2 & 1\\ & & & & & 2\\ \end{matrix} \right ] 2122121212

所以,可以说相似的矩阵可以化简到同一个Jordan标准型。

4.5.1. 应用

  和特征值分解类似,Jordan标准型也可以用于求解微分方程和差分方程。

d u d t = A u ⟹ u ( t ) = e A t u ( 0 ) = M e J t M − 1 u ( 0 ) \frac{du}{dt}=Au \Longrightarrow u(t)=e^{At}u(0)=Me^{Jt}M^{-1}u(0) dtdu=Auu(t)=eAtu(0)=MeJtM1u(0)

u k + 1 = A u k ⟹ u k = A k u o = M J k M − 1 u 0 u_{k+1}=Au_{k} \Longrightarrow u_{k}=A^{k}u_{o}=MJ^{k}M^{-1}u_{0} uk+1=Aukuk=Akuo=MJkM1u0

这里需要计算 J J J中Jordan块 J i k J_{i}^{k} Jik,计算方法如下 J i = λ i I + N = λ i [ 1 1 1 … ] + [ 0 1 0 1 0 1 … ] J_{i}=\lambda_{i}I+N=\lambda_{i}\left [ \begin{matrix} 1 & & &\\ & 1 & & \\ & & 1 & \\ & & & \dots \end{matrix} \right ]+\left [ \begin{matrix} 0& 1 & &\\ & 0 & 1 & \\ & & 0 & 1 \\ & & & \dots \end{matrix} \right ] Ji=λiI+N=λi111+010101

利用二项式定理展开 J i k = λ i k I + C k 1 λ i k − 1 N + C k 2 λ i k − 2 N 2 J_{i}^{k}=\lambda_{i}^{k}I+C_{k}^{1}\lambda_{i}^{k-1}N+C_{k}^{2}\lambda_{i}^{k-2}N^{2} Jik=λikI+Ck1λik1N+Ck2λik2N2

其中N以 N 6 × 6 N_{6\times 6} N6×6为例, N 6 × 6 = [ 0 1 0 1 0 1 0 1 0 1 0 ] N_{6\times 6}=\left [ \begin{matrix} 0 & 1 & & & & \\ & 0 & 1 & & & \\ & & 0 & 1& & \\ & & & 0 &1 & \\ & & & & 0 & 1\\ & & & & &0\\ \end{matrix} \right ] N6×6=01010101010

N 2 N^{2} N2等于次对角线移动到第三对角线
N 6 × 6 2 = [ 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 ] N^{2}_{6\times 6}=\left [ \begin{matrix} 0 & 0 & 1& & & \\ & 0 & 0 &1 & & \\ & & 0 & 0& 1& \\ & & & 0 &0& 1\\ & & & & 0 & 0\\ & & & & &0\\ \end{matrix} \right ] N6×62=000100100100100

N 3 N^{3} N3等于次对角线移动到第四对角线
N 6 × 6 3 = [ 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 ] N^{3}_{6\times 6}=\left [ \begin{matrix} 0 & 0 & 0& 1& & \\ & 0 & 0 &0 & 1& \\ & & 0 & 0& 0&1 \\ & & & 0&0& 0\\ & & & & 0 & 0\\ & & & & &0\\ \end{matrix} \right ] N6×63=000000100010001000

依次向上移动即可

  计算 e J i t e^{J_{i}t} eJit类似,利用泰勒展开 e J i t = e ( λ i I + N ) t = e λ i I t e N t = e λ i I t [ I + t N + ( t N ) 2 2 ! + …   ] e^{J_{i}t}=e^{(\lambda_{i} I +N)t}=e^{\lambda_{i} It}e^{ Nt}=e^{\lambda_{i} It}[I+tN+\frac{(tN)^{2}}{2!}+\dots] eJit=e(λiI+N)t=eλiIteNt=eλiIt[I+tN+2!(tN)2+]

4.6. 涉及相似的矩阵分解

  1. 矩阵 A A A可对角化,且有n个独立的特征向量,则 S − 1 A S = Λ S^{-1}AS=\Lambda S1AS=Λ(特征值分解);
  2. A A A是随意方阵,存在酉矩阵 U U U,使得 U − 1 A U = T U^{-1}AU=T U1AU=T(相似分解的最一般形式);
  3. A A A是normal矩阵,存在酉矩阵 U U U,使得 U − 1 A U = Λ U^{-1}AU=\Lambda U1AU=Λ;
  4. A A A是随意方阵,进行Jordan块对角化, M − 1 A M = J M^{-1}AM=J M1AM=J(特征值分解的最一般性);

你可能感兴趣的:(线性代数及其应用)