MIT_线性代数笔记:第 28 讲 相似矩阵和若尔当标准型

目录

  • 正定矩阵 A T A A^TA ATA
  • 相似矩阵 Similar matrices
    • 特征值互不相同 Distinct eigenvalues
    • 重特征值 Repeated eigenvalues
  • 若尔当标准型 Jordan form

本讲介绍相似矩阵,这些内容以及奇异值分解是线性代数最核心的概念。

正定矩阵 A T A A^TA ATA

若矩阵 A 满足对任意向量 x≠0 均有 x T A x > 0 x^TAx>0 xTAx>0,则称矩阵为正定矩阵,可以通过特征值、主元和行列式的办法来判断矩阵的正定性。

正定矩阵来自于最小二乘问题。有大量的实际问题用到了长方形矩阵,而最小二乘问题中用到了长方形矩阵的积 A T A A^TA ATA,它是正定矩阵。

正定矩阵 A 是对称矩阵,它的逆矩阵 A − 1 A^{ -1} A1也是正定矩阵,逆矩阵的特征值是原矩阵的倒数,因此也都是正数。若矩阵 A 和 B 都是正定矩阵,则 A+B 也是正定矩阵: x T A x > 0 x^TAx>0 xTAx>0 x T B x > 0 x^TBx>0 xTBx>0,则有 x T ( A + B ) x > 0 x^T(A+B)x>0 xT(A+B)x>0

如果 A 是一个 m x n 长方形矩阵,则 A T A A^TA ATA 是对称方阵。通过讨论 x T ( A T A ) x x^T(A^TA)x xT(ATA)x 的正负可以确认它是正定矩阵: x T ( A T A ) x = ( A x ) T ( A x ) = ∣ A x ∣ 2 ≥ 0 x^T(A^TA)x=(Ax)^T(Ax)= \begin{vmatrix} Ax \end{vmatrix}^2≥0 xT(ATA)x=(Ax)T(Ax)= Ax 20。当且仅当 Ax=0 时,表达式为 0。当矩阵 A 的各列线性无关时,即矩阵为列满秩 r=n,A 的零空间只有零向量,即此条件下仅有零向量,满足 x T ( A T A ) x x^T(A^TA)x xT(ATA)x=0。因此矩阵列满秩时, A T A A^TA ATA 是正定矩阵。正定矩阵将之前的知识点串联起来。

相似矩阵 Similar matrices

A 和 B 均是 n x n 方阵,若存在可逆矩阵 M,使得 B= M − 1 A M M^{-1}AM M1AM,则 A 和 B 为相似矩阵。

特征值互不相同 Distinct eigenvalues

若矩阵 A 具有 n 个线性无关的特征向量,可以对角化得到 S − 1 A S = Λ S^{-1}AS =Λ S1AS=Λ,则 A 相似于 Λ,这里的 M 是特征向量矩阵 S。如果将 M 取其它可逆矩阵,可以得到和 A相似的另一矩阵 B,实际上这样可以定义一类矩阵,Λ 是其中最简洁的一个。

例: A = [ 2 1 1 2 ] , 则 Λ = [ 3 0 0 1 ] 例:A=\begin{bmatrix} 2&1\\1&2 \end{bmatrix},则 Λ=\begin{bmatrix} 3&0\\0&1 \end{bmatrix} 例:A=[2112],Λ=[3001],而取另一 M,则有

B = [ 1 − 4 0 1 ] [ 2 1 1 2 ] [ 1 4 0 1 ] = [ − 2 − 15 1 6 ] B=\begin{bmatrix} 1&-4\\0&1 \end{bmatrix}\begin{bmatrix} 2&1\\1&2 \end{bmatrix}\begin{bmatrix} 1&4\\0&1 \end{bmatrix}=\begin{bmatrix} -2&-15\\1&6 \end{bmatrix} B=[1041][2112][1041]=[21156]

相似矩阵最重要的特性是:相似矩阵具有相同的特征值。事实上,所有特征值为 3 和 1 的二阶矩阵都是 A 的相似矩阵。

证明矩阵 A 的相似矩阵 B = M − 1 A M B=M^{-1}AM B=M1AM,具有和矩阵 A 相同的特征值λ:矩阵 A具有的特征值λ,即存在特征向量 x 满足 Ax=λx。则有:
A M M − 1 x = λ x M − 1 A M M − 1 x = λ M − 1 x B M − 1 x = λ M − 1 x AMM^{-1}x =λx \\ M^{-1}AMM^{-1}x =λM^{-1}x\\ BM^{-1}x =λM^{-1}x AMM1x=λxM1AMM1x=λM1xBM1x=λM1x
即矩阵具有特征值λ,且特征向量为 M − 1 x M^{-1}x M1x
因此,相似矩阵具有相同的特征值,并且线性无关的特征向量的个数相同,但是特征向量往往不同。如果矩阵 A 的特征值互不相等 λ 1 ≠ λ 2 ≠ … … ≠ λ n λ_1≠λ_2≠……≠λ_n λ1=λ2=……=λn,而与另一个矩阵 B 的特征值完全相同 λ 1 = λ 1 ′ 、 λ 2 = λ 2 ′ … … λ n = λ n ′ λ_1=λ_1'、λ2=λ_2'……λn=λ_n' λ1=λ1λ2=λ2……λn=λn,则它们与相同的对角矩阵 Λ 相似。

重特征值 Repeated eigenvalues

如果矩阵有重特征值,则可能无法进行对角化。 例:二阶矩阵有重特征值 λ 1 = λ 2 = 4 λ_1=λ_2=4 λ1=λ2=4

第一类: [ 4 0 0 4 ] \begin{bmatrix} 4&0\\0&4 \end{bmatrix} [4004] 只与自己相似, M − 1 [ 4 0 0 4 ] M = 4 M − 1 I M = [ 4 0 0 4 ] M^{-1}\begin{bmatrix} 4&0\\0&4 \end{bmatrix}M=4M^{-1}IM = \begin{bmatrix} 4&0\\0&4 \end{bmatrix} M1[4004]M=4M1IM=[4004]。这个系列的相似矩阵仅包含其自身。

第二类包含其它所有的重特征值为 4 的矩阵:其中最简洁的是 [ 4 1 0 4 ] \begin{bmatrix} 4&1\\0&4 \end{bmatrix} [4014],元素 1的位置换上其它数值仍然是相似矩阵。这个最优形式称为若尔当(Jordan form)标准型。有了这个理论,就可以处理不可对角化的矩阵,完成近似的“对角化”转化为若尔当标准型进行处理。

[ 4 1 0 4 ] \begin{bmatrix} 4&1\\0&4 \end{bmatrix} [4014]相似的矩阵,迹为 8,行列式为 16,因此我们可以构造出很多相似矩阵: [ 5 1 − 1 3 ] , [ 4 0 17 4 ] , [ a ∗ ∗ 8 − a ] \begin{bmatrix} 5&1\\-1&3 \end{bmatrix},\begin{bmatrix} 4&0\\17&4 \end{bmatrix},\begin{bmatrix} a&*\\*&8-a \end{bmatrix} [5113],[41704],[a8a]……它们都不能对角化(因为若可以对角化则按照特征值可知结果为 4I,而 4I 只与自己相似)。

若尔当标准型 Jordan form

更复杂的情况,一个四阶矩阵具有重特征值 0, λ 1 = λ 2 = λ 3 = λ 4 = 0 λ_1=λ_2=λ_3=λ_4=0 λ1=λ2=λ3=λ4=0

A = [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] A=\begin{bmatrix} 0&1&0&0\\0&0&1&0\\0&0&0&0\\0&0&0&0 \end{bmatrix} A= 0000100001000000 它的秩为 2,因此其零空间的维数为 4-2=2,而零空间的向量就是矩阵的特征向量,满足 Ax=0x,所以矩阵 A 只有两个特征向量。若尔当指出上对角线每增加一个 1,矩阵就减掉一个特征向量,本例中特征向量数为 4-2=2。

矩阵 B = [ 0 1 7 0 0 0 1 0 0 0 0 0 0 0 0 0 ] 矩阵B=\begin{bmatrix} 0&1&7&0\\0&0&1&0\\0&0&0&0\\0&0&0&0 \end{bmatrix} 矩阵B= 0000100071000000 ,与矩阵 A = [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] A=\begin{bmatrix} 0&1&0&0\\0&0&1&0\\0&0&0&0\\0&0&0&0 \end{bmatrix} A= 0000100001000000 为相似矩阵。

矩阵 C = [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] 矩阵C=\begin{bmatrix} 0&1&0&0\\0&0&0&0\\0&0&0&1\\0&0&0&0 \end{bmatrix} 矩阵C= 0000100000000010 ,与矩阵 A = [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] A=\begin{bmatrix} 0&1&0&0\\0&0&1&0\\0&0&0&0\\0&0&0&0 \end{bmatrix} A= 0000100001000000 并不是相似矩阵,两者具有不同的若尔当块。

若尔当块形如 J i = [ λ i 1 0 . . . 0 0 λ i 1 . . . . . . 0 0 . . . . . . 0 . . . . . . . . . . . . 1 0 0 . . . 0 λ i ] J_i=\begin{bmatrix} λ_i&1&0&...&0\\0&λ_i&1&...&...\\0&0&...&...&0\\...&...&...&...&1\\0&0&...&0&λ_i \end{bmatrix} Ji= λi00...01λi0...001.....................00...01λi ,对角线上为重特征值 λ i λ_i λi,上对角线为1,其它位置的元素均为 0,每个若尔当块只有 1 个特征向量。若干个若尔当块可以拼成一个若尔当矩阵。

块可以拼成一个若尔当矩阵。

若尔当矩阵: J = [ J 1 0 . . . 0 0 J 2 . . . 0 . . . . . . . . . . . . 0 0 . . . J d ] J=\begin{bmatrix} J_1&0&...&0\\0&J_2&...&0\\...&...&...&...\\0&0&...&J_d \end{bmatrix} J= J10...00J2...0............00...Jd

两个矩阵具有相同的特征值和特征向量个数,但是其若尔当块的尺寸不同,两者也并不是相似矩阵。如前述矩阵 A 与 B 并不相似。
若尔当理论:任意 n 阶矩阵 A 都与一个若尔当矩阵 J 相似。若尔当矩阵中的每一个若尔当块对应一个特征向量。若矩阵具有 n 个不同的特征向量,则可以对角化,此时其若尔当标准型 J 就是对角矩阵 Λ。若出现重特征值,则特征向量个数变少。

你可能感兴趣的:(MIT_线性代数笔记,线性代数,笔记)