矩阵论(零):线性代数基础知识整理(5)——特征值与相似

矩阵论专栏:专栏(文章按照顺序排序)

本篇博客的上篇是矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换,梳理了线性空间与线性变换的相关内容。本文主要整理矩阵的特征值与相似的相关内容。

  • 方阵的特征值
    • 特征值的定义及性质
    • 特殊矩阵的特征值与特征向量(对角矩阵、上(下)三角矩阵、酋矩阵、分块矩阵)
    • A A A A T A^T AT A H A^H AH的特征值的关系
    • A H A A^HA AHA A A H AA^H AAH的特征值的关系(推广: A B AB AB B A BA BA的特征值的关系)
  • 相似变换与相似对角化
    • 相似矩阵的定义及性质
    • Sylvester定理
    • 相似对角化的定义及其充要条件
    • 相似对角化的一个应用:求解斐波那契数列的通项

通常情况下,我们在复数域中讨论特征值和特征向量。但本文为更具一般性,在一般的数域 F F F下讨论。当讨论在某一数域 F F F下n级矩阵的特征值时,特征值必须是 F F F中的数。例如,在实数域下讨论n级矩阵的特征值,则特征值一定都是实数,在这种情况下某些实矩阵根本就没有特征值
但是也需要注意一些表达上的灵活性,比如我们说n阶实矩阵有n个复特征值,这是没有问题的,这里实际上是把实矩阵看成是复数域下的一个矩阵,也就是说这里讨论的前提是在复数域 C C C下讨论。

文中“全部特征值”这种说法,是指域 F F F下的n级矩阵 A A A的特征方程 d e t ( λ I − A ) = 0 det(\lambda{}I-A)=0 det(λIA)=0在域 F F F下的所有根,且重根按重数算,即一个 k k k重根当成 k k k个特征值来看


矩阵的特征值

特征值的定义及性质
  • 定义(线性变换的特征值与特征向量):设有数域 F F F上的 n n n维线性空间 V V V T T T V V V上的线性变换,若存在 λ ∈ F \lambda \in F λF 0 ≠ x ∈ V 0\neq x\in V 0=xV使得 T ( x ) = λ x T(x)=\lambda x T(x)=λx,则称 λ \lambda λ T T T的一个特征值, x x x T T T的对应于 λ \lambda λ一个特征向量
  • 定义(方阵的特征值与特征向量):设 A ∈ F n × n A\in F^{n\times n} AFn×n,若 ∃ λ ∈ F , 0 ≠ x ∈ F n \exists{\lambda}\in{F},0\neq x\in{F^n} λF,0=xFn使得 A x = λ x Ax=\lambda{x} Ax=λx,或者等价地 ( λ I − A ) x = 0 (\lambda{I}-A)x=0 (λIA)x=0,则称 λ \lambda λ是A的一个特征值, x x x是A的对应于 λ \lambda λ的一个特征向量

任意给定线性空间上的一组基,那么线性变换的特征值与线性变换的矩阵(给定基下的矩阵)的特征值相同,线性变换的矩阵的特征向量是线性变换的特征向量在给定基下的坐标。这个关系可以从线性变换在给定基下的矩阵的定义导出,相关的线性空间与线性变换的知识见上一篇博客链接。
本文采用矩阵语言讨论特征值和特征向量。

  • 定义(特征值的集合):设 A ∈ F n × n A\in F^{n\times n} AFn×n,用 σ ( A ) \sigma (A) σ(A)表示 A A A的所有特征值的集合

  • 定理: λ \lambda λ是n阶方阵A的特征值的充要条件为 d e t ( λ I − A ) = 0 det(\lambda{}I-A)=0 det(λIA)=0

    证:
    由特征值的定义, λ \lambda λ是n阶方阵A的特征值的充要条件为齐次线性方程组 ( λ I − A ) x = 0 (\lambda{I}-A)x=0 (λIA)x=0有非零解,而有非零解的充要条件为系数矩阵 λ I − A \lambda{I}-A λIA不可逆,从而充要条件为 d e t ( λ I − A ) = 0 det(\lambda{}I-A)=0 det(λIA)=0

    【注】 d e t ( λ I − A ) = 0 det(\lambda{}I-A)=0 det(λIA)=0是关于 λ \lambda λ的一元n次方程,这个定理揭示了特征值与一元n次多项式方程的关系。在复数域下,一元n次多项式方程恰好有n个根(这个是复数域代数封闭性的一个直接推论,注意重根按重数算),因此n阶复方阵恰好有n个特征值(重特征值按重数算)。在代数不封闭的数域,如实数域和有理数域中,n阶方阵至多有n个特征值(重根按重数算)

  • 定义(谱半径):设 A ∈ C n × n A\in C^{n\times n} ACn×n λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn A A A的全部特征值,称 ρ ( A ) = max ⁡ { ∣ λ 1 ∣ , ∣ λ 2 ∣ , . . . , ∣ λ n ∣ } \rho(A)=\max\{|\lambda_1|,|\lambda_2|,...,|\lambda_n|\} ρ(A)=max{ λ1,λ2,...,λn} A A A的谱半径,其中 ∣ ∙ ∣ |\bullet| 表示复数的模

    【注】也就是说,谱半径是矩阵特征值的最大模。谱半径这个概念在计算数学中有重要应用。注意一般这个概念是复数域下的,一个实矩阵/有理数矩阵的谱半径是它的所有复特征值的最大模。

  • 定义: d e t ( λ I − A ) = 0 det(\lambda{}I-A)=0 det(λIA)=0称为A的特征方程;关于 λ \lambda λ的一元n次多项式 d e t ( λ I − A ) det(\lambda{}I-A) det(λIA)称为A的特征多项式;若 λ \lambda λ是A的特征值,则齐次线性方程组 ( λ I − A ) x = 0 (\lambda{I}-A)x=0 (λIA)x=0的解空间(也就是系数矩阵 λ I − A \lambda I-A λIA的零空间 N ( λ I − A ) N(\lambda I-A) N(λIA))称为 λ \lambda λ特征子空间

    【注】关于矩阵特征多项式的详细展开式,请参考矩阵论(补充知识):特征多项式的展开式。

  • 定义:若方阵A的特征值 λ \lambda λ是A的特征方程的k重根,则称k是 λ \lambda λ的代数重数; λ \lambda λ对应的特征子空间的维数 dim ⁡ N ( λ I − A ) \dim N(\lambda I-A) dimN(λIA)称为 λ \lambda λ的几何重数

  • 定理: A ∈ C n × n A\in C^{n\times n} ACn×n的全部不同特征值的代数重数之和为n

    证:根据n阶复方阵恰好有n个特征值这一事实,以及代数重数的定义可得。
    【注】这个结论对一般的数域并不成立。一般的数域 F F F中,n阶方阵的全部不同特征值的代数重数之和不大于 n n n

  • 定理: A ∈ F n × n A\in F^{n\times n} AFn×n的任意特征值的几何重数小于等于代数重数

    证:
    法1:利用基的扩充和相似(相似矩阵的内容见后文)
    λ \lambda λ A A A的一个特征值, λ \lambda λ对应的特征子空间 N ( λ I − A ) N(\lambda I-A) N(λIA)的维数为s,即 λ \lambda λ的几何重数为s。取 N ( λ I − A ) N(\lambda I-A) N(λIA)的一组基 x 1 , x 2 , . . . , x s x_1,x_2,...,x_s x1,x2,...,xs,由扩充定理知可将它扩充为 F n F^n Fn的一组基 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn。令 P = [ x 1 x 2 ⋯ x n ] P=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix} P=[x1x2xn],则 P P P为可逆矩阵,由 P − 1 P = I P^{-1}P=I P1P=I并根据分块矩阵乘法可得 P − 1 [ x 1 x 2 ⋯ x s ] = [ I s O ] P^{-1}\begin{bmatrix}x_1&x_2&\cdots&x_s\end{bmatrix}=\begin{bmatrix}I_s\\O\end{bmatrix} P1[x1x2xs]=[IsO]。令 B = P − 1 A P B=P^{-1}AP B=P1AP,则 B = P − 1 [ A x 1 ⋯ A x s ∗ ] = P − 1 [ λ x 1 ⋯ λ x s ∗ ] = [ λ P − 1 [ x 1 x 2 ⋯ x s ] ∗ ] = [ λ I s ∗ O ∗ ] \begin{aligned}B&=P^{-1}\begin{bmatrix}Ax_1&\cdots&Ax_s&*\end{bmatrix}\\&=P^{-1}\begin{bmatrix}\lambda x_1&\cdots&\lambda x_s&*\end{bmatrix}\\&=\begin{bmatrix}\lambda P^{-1}\begin{bmatrix}x_1&x_2&\cdots&x_s\end{bmatrix}&*\end{bmatrix}\\&=\begin{bmatrix}\lambda I_s&*\\O&*\end{bmatrix}\end{aligned} B=P1[Ax1Axs]=P1[λx1λxs]=[λP1[x1x2xs]]=[λIsO]通过对上面这个分块矩阵的特征多项式进行拉普拉斯展开就得知, λ \lambda λ B B B的特征值且其代数重数至少为 s s s。因为 B B B A A A相似,故 B B B的特征值 λ \lambda λ的代数重数与 A A A的特征值 λ \lambda λ的代数重数相等,故 A A A的特征值 λ \lambda λ的代数重数不小于 s s s,即不小于其几何重数。得证。
    法2:当 F = C F=C F=C时可以利用矩阵分解(schur分解,具体证明见矩阵论(二):矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD)

  • 定理:设 A ∈ F n × n A\in F^{n\times n} AFn×n的全部特征值分别为 λ 1 , λ 2 , . . . , λ s \lambda_1,\lambda_2,...,\lambda_s λ1,λ2,...,λs,则 μ I + A , μ ∈ F \mu I+A,\mu\in F μI+A,μF的全部特征值为 μ + λ 1 , μ + λ 2 , . . . , μ + λ s \mu+\lambda_1,\mu+\lambda_2,...,\mu+\lambda_s μ+λ1,μ+λ2,...,μ+λs

    证:
    μ I + A \mu I+A μI+A的特征多项式为 d e t ( λ I − ( μ I + A ) ) = d e t ( ( λ − μ ) I − A ) det(\lambda I-(\mu I+A))=det((\lambda-\mu)I-A) det(λI(μI+A))=det((λμ)IA),由已知特征方程 d e t ( λ I − A ) det(\lambda I-A) det(λIA)的s个根为 λ 1 , λ 2 , . . . , λ s \lambda_1,\lambda_2,...,\lambda_s λ1,λ2,...,λs,显然特征方程 d e t ( ( λ − μ ) I − A ) = 0 det((\lambda-\mu)I-A)=0 det((λμ)IA)=0的s个根为 μ + λ 1 , μ + λ 2 , . . . , μ + λ s \mu+\lambda_1,\mu+\lambda_2,...,\mu+\lambda_s μ+λ1,μ+λ2,...,μ+λs,得证。
    【注】该结论是一个比较明显的结论,也十分常用。注意,结论蕴含着“若 λ i \lambda_i λi A A A k k k重特征值(此处指代数重数),则 μ + λ i \mu+\lambda_i μ+λi μ I + A \mu I+A μI+A k k k重特征值”。

  • 定理:设 λ 1 , λ 2 , ⋯   , λ s \lambda{}_1,\lambda{}_2,\cdots,\lambda{}_s λ1,λ2,,λs是A的互不相同的特征值, x i 1 , x i 2 , ⋯   , x i j i x_{i1},x_{i2},\cdots,x_{ij_i} xi1,xi2,,xiji是A关于 λ i \lambda{}_i λi的线性无关的特征向量,则 x 11 , ⋯   , x 1 j 1 , x 21 , ⋯   , x 2 j 2 , ⋯   , x s 1 , ⋯   , x s j s x_{11},\cdots,x_{1j_1},x_{21},\cdots,x_{2j_2},\cdots,x_{s1},\cdots,x_{sj_s} x11,,x1j1,x21,,x2j2,,xs1,,xsjs是线性无关的

    证明:(数学归纳法)
    当s=1时,显然命题成立。
    假设当s=i时,命题成立,则当s=i+1时,设 k 11 x 11 + ⋯ + k 1 j 1 x 1 j 1 + k 21 x 21 + ⋯ + k 2 j 2 x

你可能感兴趣的:(机器学习的数学基础,线性代数,矩阵)