之前的概念只是线性代数中最基本的工具,而线性代数最核心的内容在这里才刚刚开始。我们知道,代数的对象是结构,而代数的核心则是变换。结构间的变换不光揭露了它们之间的本质关系,它还是了解结构本身深层属性的有力工具。变换本身没有什么,我们更关注的其实是变中的不变,不变量则又是变换的核心。
在抽象代数中,同态映射是深入理解代数结构的重要方法,它可以对其进行纵向分解,从更宏观的角度解析代数结构。之前我们把矩阵定义成一种映射,可见想要深入了解矩阵,就必须回到它的根源上去。线性空间首先是一个交换群,同态映射的定义可以照搬过来。另一方面,线性空间还有数乘运算,而且这才是它的核心所在,故同态映射还需保持数乘的形式不变。为此定义线性空间\(V,V'\)之间的映射如下,并称\(\mathscr{A}\)为从\(V\)到\(V'\)的线性映射。
\[\mathscr{A}(\alpha+\beta)=\mathscr{A}(\alpha)+\mathscr{A}(\beta),\quad\mathscr{A}(k\alpha)=k\mathscr{A}(\alpha)\tag{1}\]
当映射为双射的时候,它显然是个同构映射,也就是个可逆运算。而一般的线性映射,每个像的原像可能不止一个,顺着这个关系,我们依次要讨论的是:像的结构是怎样的?每个像的原像是什么?像和原像有什么关系?使用定义比较容易验证,线性映射的像\(\mathscr{A}(V)\)是一个线性空间,且有公式(2)成立。
\[\mathscr{A}(0)=0,\quad\mathscr{A}(-\alpha)=-\mathscr{A}(\alpha),\quad\mathscr{A}(k_1\alpha_1+\cdots+k_n\alpha_n)=k_1\mathscr{A}(\alpha_1)+\cdots+k_n\mathscr{A}(\alpha_n)\tag{2}\]
设所有从\(V\)到\(V'\)的线性映射组成集合\(\text{Hom}(V,V')\),容易验证它在式(3)的运算下是一个线性空间。另外显然,复合线性映射\(V\overset{\mathscr{B}}{\mapsto} V'\overset{\mathscr{A}}{\mapsto} V''\)也是线性映射,且满足公式(4)。还可以证明,复合运算和加法运算满足分配率(5),但由于乘法不封闭,故不一定是环。
\[(\mathscr{A}+\mathscr{B})(\alpha)=\mathscr{A}(\alpha)+\mathscr{B}(\alpha),\quad(k\mathscr{A})(\alpha)=k(\mathscr{A}(\alpha))\tag{3}\]
\[k(\mathscr{AB})=(k\mathscr{A})\mathscr{B}=\mathscr{A}(k\mathscr{B})\tag{4}\]
\[(\mathscr{A}+\mathscr{B})\mathscr{C}=\mathscr{AC}+\mathscr{BC},\quad\mathscr{C}(\mathscr{A}+\mathscr{B})=\mathscr{CA}+\mathscr{CB}\tag{5}\]
仿照抽象代数,定义\(0\)的原像集合\(W\)为\(\mathscr{A}\)的核,记作\(\text{Ker}\,\mathscr{A}\),容易验证它是\(V\)的子空间。继续考察任意像\(\alpha'\)的原像,设\(\mathscr{A}(\alpha)=\alpha'\),易知\(\mathscr{A}(\alpha_0)=\alpha'\)的充要条件是\(\alpha-\alpha_0\in W\),即\(\alpha_0\)在陪集\(\alpha+W\)中。这就在像和陪集之间建立了一一对应的关系,它可用如下映射表示。
\[\sigma:\:\alpha+W\mapsto\alpha',\quad\mathscr{A}(\alpha)=\alpha'\tag{6}\]
如果在陪集上定义如下运算(式(7)),可以证明该运算是良性的,且陪集集合形成一个线性空间,它叫商空间,记作\(V/W\)。容易验证\(\sigma\)是一个线性变换,故商空间和像同构(公式(8)),这样我们就彻底弄清了像与原像的关系。其实对任意一个子群\(W\),都可以定义映射\(\alpha\mapsto(\alpha+W)\),容易证明它就是以\(W\)为核的线性映射,这个映射也叫自然映射。以上正反的推导说明,线性空间\(V\)上的线性映射和它的子空间是等价的。
\[(\alpha+W)+(\beta+W)=(\alpha+\beta)+W,\quad k(\alpha+W)=k\alpha+W\tag{7}\]
\[V/W\cong \mathscr{A}(V),\quad W=\text{Ker}\,\mathscr{A}\tag{8}\]
下面继续讨论有限维空间中,核空间和商空间的关系。首先根据抽象代数的结论,空间元素的个数满足\(|V|=|W|·|V/W|\),从而它们的维度满足公式(9)。设空间\(V\)的维度是\(n\),核\(W\)的维度是\(r\),且\(\alpha_1,\cdots,\alpha_r\)是它的一组基。现在来寻找\(V/W\)的一组基\(\beta_1+W,\cdots,\beta_{n-r}+W\),首先\(\beta_1,\cdots,\beta_{n-r}\)当然是线性无关的,又由于它们都不在\(W\)中,故\(\alpha_1,\cdots,\alpha_r,\beta_1,\cdots,\beta_{n-r}\)正好组成\(V\)的一组基。
\[\dim{V}=\dim{W}+\dim(V/W)\tag{9}\]
商空间在三维空间中有较直观的形象,比如空间中的一维子空间就是任意过原点的直线\(l\),它的陪集就是所有与\(l\)平行的直线,商空间自然就是这些平行线组成的线性空间。为了更直观地理解这个商空间,观察任意一个过原点且不与\(l\)平行的平面\(\pi\),所有的平行线与\(\pi\)的唯一交点正好组成\(\pi\),故二维空间\(\pi\)可以看做这个商空间的同构空间。再比如,当我们取某个过零点平面\(\pi\)作为子空间时,商空间就是所有与之平行的平面,与这个商空间同构的一维空间是任意一条过零点且不与\(\pi\)平行的直线\(l\)。
根据公式(2)的第3式可知,有限维线性空间的线性映射可以由\(V\)的一组基完全确定。具体来讲,选择\(V\)的一组基\(\alpha_1,\cdots,\alpha_n\),再选择\(V'\)的一组基\(\beta_1,\cdots,\beta_m\),线性映射可以表示成如下表达式。故每个线性映射在选定的基下都确定一个矩阵\(A\),且反之对任意\(n\times m\)阶矩阵,式子(10)也定义了一个线性变换。所以在有限维空间中,可以把线性映射和矩阵等价看待。这与我们在矩阵乘法中的视角相一致,但要注意\(\mathscr{AB}\)的矩阵是\(BA\)(自行验证)。
\[\mathscr{A}(\alpha_1,\cdots,\alpha_n)=A_{n\times m}(\beta_1,\cdots,\beta_m)\tag{10}\]
对于同一个线性映射,选择\(V,V'\)的不同基,得到的矩阵也是不同的。设\((\alpha'_1,\cdots,\alpha'_n)=P(\alpha_1,\cdots,\alpha_n)\)和\((\beta'_1,\cdots,\beta'_m)=Q(\beta_1,\cdots,\beta_m)\)是另一组基,则有式(11)成立,即线性映射的矩阵变为\(PAQ^{-1}\)。反之对任意\(n,m\)阶的可逆方阵\(P,Q\),\(B=PAQ^{-1}\)都是同一个线性映射在某组基下的矩阵。满足以上条件的\(A,B\)称为是相抵矩阵,显然相抵矩阵是一个等价类,每一个类对应\(\text{Hom}(V,V')\)中的一个元素。
\[\mathscr{A}(\alpha'_1,\cdots,\alpha'_n)=P\mathscr{A}(\alpha_1,\cdots,\alpha_n)=PA(\beta_1,\cdots,\beta_m)=PAQ^{-1}(\beta'_1,\cdots,\beta'_m)\tag{11}\]
由上一篇的结论知,总存在可逆方阵\(P,Q\),使得\(PAQ^{-1}=\begin{bmatrix}I_r&0\\0&0\end{bmatrix}\)。在对应基下,线性映射有了最简单的形式,它也是最本质的形式,同构意义下\(n\)维到\(m\)维空间的线性映射仅有\(\min(n,m)\)个。另外,显然\(A\)的秩\(r\)正是\(\mathscr{A}(V)\)的维度,故\(r\)也称为\(\mathscr{A}\)的秩,同样记作\(\text{rank}\,\mathscr{A}\)。
如果把相抵看成是一种变换,我们更关注其中不变的量,比如矩阵的秩,并称之为变换的不变量。不变量是变换或等价类的重要属性,它也是考察变换的主要工具。反之,一旦矩阵的阶和秩确定,它们所属的相抵等价类也就确定了,这样的量可以唯一刻画变换,它被称为变换的全系不变量。关于不变量的讨论将贯穿今后的内容,因为这才是线性代数最精华的部分,全系不变量不仅可以给出变换的简单标准式,还可以对变换进行彻底地分类。
线性空间\(V\)到自身的线性映射也叫线性变换,它们组成的集合简记为\(\text{Hom}(V)\),由于乘法在其中是封闭的,故它是一个环。恒等变换\(\mathscr{I}\)将每个元素变换到自身,显然它是环的单位元,故\(\text{Hom}(V)\)还是含幺环。像这种定义了乘法的线性空间,且乘法满足公式(4)(5)和存在单位元,我们一般称之为域\(K\)上的代数。代数是很常见的结构,比如一般的数域、\(n\)维方阵、一元多项式等等。
一一映射的线性变换是可逆映射,它的逆一般也记作\(\mathscr{A}^{-1}\)。又由于线性变换在乘法上的封闭性,可以很自然地定义它的幂运算(12),且它符合一般幂运算的性质,不再赘述。
\[\mathscr{A}^0=\mathscr{I},\quad \mathscr{A}^m=\mathscr{A}\mathscr{A}^{m-1},\quad \mathscr{A}^{-m}=(\mathscr{A}^{-1})^m\tag{12}\]
对\(n\)维空间\(V\),线性变换\(\mathscr{A}\)同样可以对应到\(n\)阶方阵\(A\),且变换可逆与矩阵可逆等价。前面已经看到,线性映射是矩阵的直观表示,我们同样可以用线性变换来研究方阵的性质。比如考察序列\(\mathscr{A},\mathscr{A}^2,\mathscr{A}^3,\cdots\),显然有\(\mathscr{A}(V)\supseteq\mathscr{A}^2(V)\supseteq\cdots\),由于秩不可能无限递减,故存在\(\mathscr{A}^k(V)=\mathscr{A}^{k+1}(V)\)。一旦出现这种情况,等式会一直成立下去,从而必定有式(13)成立。
\[\mathscr{A}^n(V)=\mathscr{A}^{n+1}(V)=\cdots,\quad \text{rank}\,A^n=\text{rank}\,A^{n+1}=\cdots\tag{13}\]
既然像和原像在同一空间,对它们选择相同一组基\(\alpha_1,\cdots,\alpha_n\)会比较方便,这也是线性变换不同于一般线性映射的根本原因。当取另一组基\((\alpha'_1,\cdots,\alpha'_n)=P(\alpha_1,\cdots,\alpha_n)\)时,易知线性变换的矩阵变为\(PAP^{-1}\)。更一般地,如果矩阵\(A,B\)满足式(14),则称\(A,B\)是相似矩阵,记作\(A\sim B\)。同样地,相似矩阵的等价类与\(\text{Hom}(V)\)的元素一一对应。
\[B=PAP^{-1},\quad |P|\ne 0\tag{14}\]
下一篇的主要任务将是研究相似矩阵的不变量和全系不变量,以得到相似标准型及相似矩阵的完全分类,这里先做一些准备工作。
由于线性变换的像和原像在同一空间,它们总是纠缠在一起,不能像线性映射那样变得简单。但我们还是希望将变换尽量分割开来,具体讲就是,将\(V\)分解为尽量小的子空间\(V_1\oplus V_2\oplus\cdots\oplus V_s\),且线性变换的像\(\mathscr{A}(V_i)\)还在\(V_i\)中。这样在对应的基下,变换的矩阵是一个分块对角矩阵。进一步地,如果这样的分割唯一,我们还能对矩阵或变换进行分类。
为此我们先简单讨论一下这样的子空间\(W\),如果它满足\(\mathscr{A}(W)\subseteq W\),则称之为\(\mathscr{A}\)的不变子空间。显然\(V\)本身、变换的核\(\text{Ker}\,\mathscr{A}\)、变换的像\(\mathscr{A}(V)\)都是不变子空间。根据定义还可以证明,不变子空间的和、交都是不变子空间。另外,如果选取\(W\)的一组基并将其扩展成\(V\)的基,则显然变换的矩阵是如下分块下三角矩阵,其中\(r\)是\(W\)的维度。
\[\begin{bmatrix}X_{r\times r}&0\\Z&Y_{(n-r)\times(n-r)}\end{bmatrix}\tag{15}\]
如果在商空间\(V/W\)中定义映射\(\alpha+W\mapsto\mathscr{A}\alpha+W\),首先由于\(W\)是不变子空间,易知这是一个良定义。再通过简单的验证可知这个映射是线性变换,它也被称为\(\mathscr{A}\)在\(V/W\)上的诱导变换。设\(W\)的基为\(\alpha_1,\cdots,\alpha_r\),扩展为\(V\)的基为\(\alpha_1,\cdots,\alpha_n\),则可以证明,诱导变换在基\(\alpha_{r+1}+W,\cdots,\alpha_n+W\)下的矩阵正好就是公式(15)中的\(Y\)。
其实\(\mathscr{A}(V),\text{Ker}\,\mathscr{A}\)为不变子空间这一结论是可以进行扩展的,这里介绍一个十分有用的结论。设线性变换\(\mathscr{B}\)满足\(\mathscr{AB}=\mathscr{BA}\),\(V'\)是\(\mathscr{A}\)的不变子空间,容易验证\(\mathscr{B}^{-1}(V')\)和\(\mathscr{B}(V')\)都是\(\mathscr{A}\)的不变子空间。特别地,如果取\(\mathscr{B}\)为多项式\(f(\mathscr{A})\),并分别取\(V'\)为\(V\)和\(0\),则有\(f(\mathscr{A})(V)\)和\(\text{Ker}\,f(\mathscr{A})\)都是\(\mathscr{A}\)的不变子空间。
有一种不变子空间比较容易想到,那就是从某个向量\(\alpha\)开始“生成”的不变子空间。要使得它是不变子空间,则要求\(\alpha,\mathscr{A}(\alpha),\mathscr{A}^2(\alpha),\cdots\)都属于这个空间。在有限空间中,这个序列迟早会变得线性相关,设在\(\mathscr{A}^m(\alpha)\)处第一次出现线性相关,则它可以由\(\alpha,\cdots,\mathscr{A}^{m-1}(\alpha)\)线性表出(式(16)),而且显然后面所有的向量都可以由这前\(m\)个向量线性表出。
\[\mathscr{A}^m(\alpha)=a^{m-1}\mathscr{A}^{m-1}(\alpha)+\cdots+a_1\mathscr{A}(\alpha)+a_0\alpha\tag{16}\]
这\(m\)个向量的生成子空间被称为由\(\alpha\)生成的循环子空间,记做\(C_{\alpha}\)(公式(17))。显然\(C_{\alpha}\)的维数是\(m\),且容易证明,它是包含\(\alpha\)的最小不变子空间。取这\(m\)个向量作为\(C_{\alpha}\)的基,容易验证\(\mathscr{A}|_{C_{\alpha}}\)在这组基下的矩阵为式(18)。
\[C_{\alpha}=\left<\alpha,\,\mathscr{A}(\alpha),\,\cdots,\,\mathscr{A}^{m-1}(\alpha)\right>\tag{17}\]
\[\begin{bmatrix}0&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&0\\a_0&a_1&\cdots&a_{m-1}\end{bmatrix}\tag{18}\]
最简单的循环子空间当然就是\(\alpha\)的生成子空间\(\left<\alpha\right>\),这时有公式(19)左边的关系。将满足条件的\(\alpha\)称为\(\mathscr{A}\)的特征向量,对应的\(\lambda\)称为特征值。这个关系等价于(19)的右式,要使非零的\(\alpha\)存在,特征矩阵\(\lambda I-A\)的行列式必须为\(0\)。容易证明它的行列式有式(20)的格式,多项式\(\varphi(\lambda)\)称为\(A\)的特征多项式。
\[\mathscr{A}(\alpha)=\lambda\alpha\quad\Leftrightarrow\quad (\lambda\mathscr{I}-\mathscr{A})\alpha=0\tag{19}\]
\[|\lambda I-A|=\varphi(\lambda)=\lambda^n-(a_{11}+\cdots+a_{nn})\lambda^{n-1}+\cdots+(-1)^n|A|\tag{20}\]
• \(A,B\)为复方阵,求证\(AB,BA\)的特征多项式相同。
显然\(A\)的所有特征值就是\(\varphi(\lambda)=0\)的所有根,根\(\lambda_i\)的重数称为特征值的代数重数。另外容易证明,任意特征值\(\lambda_i\)的所有特征向量组成一个线性空间,称为特征子空间,记作\(V_{\lambda_i}\),这个线性空间的维数称为特征值的几何重数。当\(\lambda_i\ne\lambda_j\)时,考虑\(0\)在\(V_{\lambda_i}+V_{\lambda_j}\)上的分解(式(21)左),设\(0=\alpha_i+\alpha_j\),将\(\mathscr{A}\)作用于两边得式(21)右,联立两个等式知\(\alpha_i=\alpha_j=0\)。从而\(V_{\lambda_i}\cap V_{\lambda_j}=0\),从而可知任意两个特征子空间都不相交。
\[0=\alpha_i+\alpha_j;\quad 0=\lambda_i\alpha_i+\lambda_j\alpha_j\tag{21}\]
这样就可以选取各特征子空间的基并将其扩展为空间的集,线性变换在这组基下的矩阵具有以下形式,其中\(n_1,\cdots,n_s\)为特征值的几何重数。通过这个式子可以看到几何重数不大于代数重数,当所有几何重数等于代数重数时,矩阵就成为对角矩阵,这样的矩阵也称为可对角化的。反之也显然,可对角化矩阵的几何重数与代数重数都相等,它们是等价的。
\[\begin{bmatrix}\lambda_1 I_{n_1}&\cdots&0&0\\0&\ddots&0&0\\0&\cdots&\lambda_s I_{n_s}&0\\B_1&\cdots&B_{s-1}&B_s\end{bmatrix}\tag{22}\]
你可能注意到,特征值、特征向量、特征多项式在某个线性变换下都是确定的,故它们是矩阵相似变换下的不变量。但它们并不一定是全系不变量。因为即使有了特征值,矩阵(22)还是不确定的。当然矩阵可对角化时,特征值完全确定了矩阵,这时特征值就是矩阵在相似变换下的全系不变量。另外要注意,特征值的个数与域\(K\)的选取有关,我们不妨先在代数闭域(对应数域中的复数域)中进行讨论,因为在代数闭域中所有多项式都能分解为一次多项式之积\((\lambda-\lambda_1^{m_1})\cdots(\lambda-\lambda_s^{m_s})\)。
在这种假设下,首先由公式(18)知道所有特征值(包括重根)的积为\((-1)^n|A|\),而它们的和则为\(a_{11}+\cdots+a_{nn}\),由于特征值是不变量,所以对角线之和也是不变量。另外,任何矩阵都有特征值和特征向量,随便选取一对便得到相似矩阵\(\begin{bmatrix}\lambda_1&0\\C&B\end{bmatrix}\)。继续对\(B\)进行类似的处理,就可以得到一个下三角相似矩阵,而对角线上正是所有特征值,且每个特征值的个数与其代数重数相同。