概要
介绍相似矩阵、对角化以及一大堆性质.
相似矩阵的定义
从基变换一节中,我们了解到每一个可逆矩阵都是一个可变换基的矩阵,每一个可变换基的矩阵也都是可逆的. 设 \(\mathscr{B}\) 是向量空间 \(V\) 的一组基,\(T\) 是 \(V\) 上的一个线性变换,\(A={}_\mathscr{B}[T]_{\mathscr{B}}\), 则 \(T\) 的所有基表示的集合是
\[
\{ {}_{\mathscr{B}_1}[I]_{\mathscr{B}} \cdot {}_\mathscr{B}[T]_{\mathscr{B}} \cdot {}_\mathscr{B}[I]_{\mathscr{B}_1}: \mathscr{B}_1\,\, is \,\, a \,\, basis\,\, of \,\, V \}=\{S^{-1}AS: S \in M_n(\mathbf{F})\,\, is \,\, invertible\}
\]
这恰是所有与 \(A\) 的相似的矩阵的集合,说明了相似矩阵正好就是单个线性变换的不同的基表示. 于是研究相似性可以看成是研究线性变换固有的性质或者是它们所有的基表示共有的性质。
与任何等价关系类似,相似性将集合 \(M_n\) 分划成不相交的等价类。每个等价类是 \(M_n\) 中一个给定矩阵(这个类的一个代表元)相似的所有矩阵组成之集合。一个等价类中所有的矩阵是相似的,不同等价类中的矩阵是不相似的,关键的结论是处于一个相似类中的矩阵共同享有许多重要的性质。
相似矩阵的性质
相似矩阵有相同的特征多项式
证明:计算
\begin{align*}
p_B(t)&=\mathrm{det}(tI-B)=\mathrm{det}(tS^{-1}S-S^{-1}AS)=\mathrm{det}(S^{-1}(tI-A)S) \\
&=\mathrm{det}\,S^{-1} \mathrm{det}(tI-A) \mathrm{det}S=( \mathrm{det}\,S)^{-1} (\mathrm{det}\,S) \mathrm{det}(tI-A)=\mathrm{det}(tI-A)=p_{A}(t)
\end{align*}
基于此有个简单的推论,
对相似性来说,有相同的特征值是一个必要但非充分的条件,比如 \(\begin{bmatrix} 0 & 1\\ 0&0 \end{bmatrix}\) 与 \(\begin{bmatrix} 0& 0\\ 0&0 \end{bmatrix}\) 有相同的特征值但不相似。
对角矩阵的相似性
由于对角矩阵特别简单且有很好的性质,我们乐于知道何种矩阵与对角矩阵相似.
证明:假设 \(k
\begin{align*}
S^{-1}AS &= S^{-1} \begin{bmatrix} Ax^{(1)}&\cdots&Ax^{(k)}&AS_2\end{bmatrix}=S^{-1} \begin{bmatrix} \lambda_1 x^{(1)}&\cdots&\lambda_k x^{(k)}&AS_2\end{bmatrix} \\
&= \begin{bmatrix} \lambda_1 S^{-1} x^{(1)}&\cdots&\lambda_k S^{-1} x^{(k)} &S^{-1}AS_2\end{bmatrix} = \begin{bmatrix} \lambda_1 e_1 &\cdots&\lambda_k e_k & S^{-1}AS_2\end{bmatrix} \\
&= \begin{bmatrix} \Lambda & C \\ 0 & D \end{bmatrix},\quad \Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_k), \begin{bmatrix} C \\ D \end{bmatrix}=S^{-1}AS_2
\end{align*}
反过来,如果 \(S\) 是非奇异的,\(S^{-1}AS=\begin{bmatrix} \Lambda & C \\\\ 0 & D \end{bmatrix}\), 且我们给分划 \(S=\begin{bmatrix} S_1&S_2\end{bmatrix}\), 其中 \(S_1 \in M_{n,k}\), 那么 \(S_1\) 的列就是线性无关的,且 \(\begin{bmatrix} AS_1&AS_2\end{bmatrix}=AS=S\begin{bmatrix} \Lambda & C \\\\ 0 & D \end{bmatrix}=\begin{bmatrix} S_1\Lambda &S_1C+S_2 D\end{bmatrix}\). 于是,\(AS_1=S_1\Lambda\), 所以 \(S_1\) 的每一列都是 \(A\) 的特征向量。
如果 \(k=n\) 且有 \(\mathbb{C}^n\) 的一组基 \(\{x^{(1)} , \cdots ,x^{(n)}\}\), 使得对每个 \(i=1, \cdots, n\) 有 \(Ax^{(i)}=\lambda_ix^{(i)}\), 令 \(\Lambda=\mathrm{diag}(\lambda_1, \cdots, \lambda_n)\) 以及 \(S=\begin{bmatrix} x^{(1)} &\cdots& x^{(n)} \end{bmatrix}\), 后者是非奇异的. 我们上面的计算表明 \(S^{-1}AS=\Lambda\). 反过来,如果 \(S\) 是非奇异的,且 \(S^{-1}AS=\Lambda\), 那么 \(AS=S\Lambda\), 故而 \(S\) 的每一列都是 \(A\) 的特征向量.
有关特征值的最后面那些结论可以从检查特征多项式得出来:如果 \(k
原则上讲,上述定理的证明是对一个可以对角化的矩阵 \(A\in M_n\) 进行对角化的一种算法:求出 \(A\) 的所有 \(n\) 个特征值,求出 \(n\) 个与之相伴的(而且是线性无关的!)特征向量,并且作出矩阵 \(S\). 然而,除了很小的例子之外,这不是一种有实用价值的计算方法.
所有特征值都都不相同是确保可对角化的充分不必要条件
证明:假设存在复纯量 \(\alpha_1,\cdots,\alpha_k\), 使得 \(\alpha_1x^{(1)}+\alpha_2x^{(2)}+\cdots+\alpha_kx^{(k)}=0\). 设 \(B_1=(A-\lambda_2I)(A-\lambda_3I)\cdots(A-\lambda_kI)\)(乘积中略去了 \((A-\lambda_1I)\)). 由于对每个 \(i=1,\cdots,k\), \(x^{(k)}\) 是与特征值 \(\lambda_i\) 相伴的特征向量,我们就有 \(B_1x^{(i)}=(\lambda_i-\lambda_2)(\lambda_i-\lambda_3)\cdots(\lambda_i-\lambda_k)x^{(i)}\) , 它当 \(2\leqslant i \leqslant k\) 时为零,而当 \(i=1\) 时不为零(\(x^{(1)}\neq 0\)). 从而
\begin{align*}
0&=B_1(\alpha_1x^{(1)}+\alpha_2x^{(2)}+\cdots+\alpha_kx^{(k)})\\
&=\alpha_1B_1x^{(1)}+\alpha_2B_1 x^{(2)}+\cdots+\alpha_kB_1x^{(k)} \\
&=\alpha_1B_1x^{(1)}+0+\cdots+0=\alpha_1B_1x^{(1)}
\end{align*}
由于 \(B_1x^{(1)}\neq 0\), 确保了 \(\alpha_1 =0\). 对每个 \(j=2,\cdots,k\) 重复这种方法,用类似于定义 \(B_1\) 的乘积来定义 \(B_j\), 不过在其中要略去因子 \(A-\lambda_jI\). 对每个 \(j\), 我们求得 \(\alpha_j=0\), 故而 \(\alpha_1=\cdots=\alpha_k=0\), 从而 \(\alpha_1,\cdots,\alpha_k\) 是线性无关的.
证明:每个特征值对应的特征向量线性无关,由定理 (\(2.2\)) 就保证了 \(A\) 可以对角化.
必须再次提醒的是所有特征值都都不相同不是必要条件.
两矩阵相乘可以交换顺序的充分条件
不加证明地给出以下引理,
证明:假设 \(A\) 与 \(B\) 可交换,对 \(A\) 与 \(B\) 两者作相似变换使 \(A\) 对角化(但并不一定使 \(B\) 对角化),并将 \(A\) 的重特征值组合在一起(通过转换矩阵实现)。如果 \(\mu_1,\cdots,\mu_d\) 是 \(A\) 的不同的特征值,而 \(n_1,\cdots,n_d\) 分别是它们和重数,那么我们就可以假设
\begin{align}
A=\begin{bmatrix} \mu_1I_{n_1} &&& 0 \\ &\mu_2I_{n_2}&& \\ && \ddots& \\ 0&&& \mu_dI_{n_d} \end{bmatrix} , \quad \mu_i\neq \mu_j,\quad i\neq j
\end{align}
由于 \(AB=BA\), 保证了
\begin{align}
B=\begin{bmatrix} B_1&& 0 \\ & \ddots& \\ 0&&B_d \end{bmatrix} , \quad each \,\,B_i \in M_{n_i}
\end{align}
是与 \(A\) 共形的分块对角矩阵. 由于 \(B\) 是可以对角化的,引理 (\(2.2\)) 确保了每个 \(B_i\) 都是可以对角化的. 设 \(T_i \in M_{n_i}\) 是非奇异的且使得 \(T^{-1}_iB_iT_i\) 为对角矩阵(对每个 \(i=1,\cdots,d\)),令
\begin{align}
A=\begin{bmatrix} T_1 &&& 0 \\ &T_2&& \\ && \ddots& \\ 0&&& T_d \end{bmatrix}
\end{align}
那么 \(T^{-1}_i\mu_iI_{n_i}T_i=\mu_iI_{n_i}\), 所以 \(T^{-1}AT=A\) 与 \(T^{-1}BT\) 两者同为对角矩阵。
反过来,假设存在可逆阵 \(S\) 使得 \(S^{-1}AS\) 与 \(S^{-1}BS\) 同为对角阵,又因为对角阵可交换,所以 \(S^{-1}ABS=S^{-1}BAS\), 即 \(AB=BA\).
读完应该知道点什么
- 相似矩阵正好就是单个线性变换的不同的基表示
- 相似关系是等价关系
- 相似矩阵有相同的特征多项式(反之不成立)
- 所有特征值都不相同是确保可对角化的充分不必要条件
- 两矩阵相乘可以交换顺序当且仅当这两个矩阵可同时对角化