本节主要围绕着矩阵(或线性变换)能否进行对角化以及如何进行对角化进行讨论。
【对角化的判断】
- 矩阵的对角化:对给定的矩阵,判断能否相似于对角阵
- 线性变换的对角化:对给定的线性空间上的线性变换,判断是否存在空间的一组基,使得其矩阵是对角阵。
前面有关线性变换、线性空间和矩阵讨论了那么多,我们已经可以在矩阵和线性变换之间建立一个对应关系了,因此矩阵的对角化问题和相似变换的对角化问题在某种程度上是一致的。
矩阵对角化↔矩阵相似于对角阵
以下回顾线性代数中三个相似于对角阵的判定定理
[0]:上述过程理解的时候可以按照从左边推向右边来理解,但是其变化都是等价变化,也就是两边都可以互相推导。
[1]:矩阵A相似于对角阵的定义——存在一个可逆阵P,有P-1·A·P = Λ成立,而且根据“相似的矩阵具有相同的特征量”,可以推知对角矩阵Λ的对角线上的元素应该就是各个特征值。
[2]:将矩阵P拆成列分块矩阵,对等式P-1·A·P = Λ两边同时左乘矩阵P,就能得到A·P = P·Λ
小结:前面几节中一些推导证明中老师也用过这样的变化技巧,以后看到形如P-1AP这样的式子,就可以考虑左乘P-1的逆矩阵来变换。
[3]:分块矩阵的运算
[4]:根据等式,可以得到APi = λiPi(i = 1,2,…,n)的一系列等式,根据特征值和特征向量的定义,Pi就是矩阵A对应于特征值λi的特征向量。又因为Pi是P矩阵的列分块且矩阵P可逆,“可逆矩阵的列(行)向量组都是线性无关的”,因此得到——A有n个线性无关的特征向量。
通过定理一,我们知道要判断某个矩阵能否进行对角化,只需要计算矩阵有多少个线性无关的特征向量。
问题是我们如何快速判断矩阵的特征向量是否线性无关呢?——引出定理2.
定理2——特征向量的线性无关性
由此,将判断特征向量是否线性无关的问题转化成求解特征值,并判断是否具有n个互异的特征值。
定理3——重根的特征向量的线性无关性
该定理告诉我们,每个特征值的线性无关的特征向量组合在一起构成的特征向量组依然是线性无关的。
把关于矩阵对角化的定理嫁接到线性变换的问题讨论中来。
读者可以将第一和第二部分的定理描述与证明对照起来理解、记忆。
已知——假设V是n维线性空间,f∈End(V):
<必要性证明>
[0]:对于这条定理的证明我们有两条思路。其一,就是把线性变换用矩阵语言描述出来,然后通过矩阵的对角化条件进行证明;其二,我们可以直接用线性变换的语言来进行描述和证明。这里我们采用第二种方法。
[1]:线性变换f可以对角化的定义——存在一组基,使得变换f在这组基下的矩阵为对角阵。
p.s. 这里对角阵中对角线上的元素现在并不能确定为特征值,只是用λ这个符号表示而已。
[2]:线性变换的矩阵表示,已知一个向量ε和线性变换对应的矩阵A,那么该原像对应的像应该是Aε。
[3]:根据线性变换的特征值和特征向量的定义,且εi≠0(i = 1,2,…,n),所以λi就是线性变换f 的特征值,εi是线性变换f对应于特征值λi的特征向量。
[4]:因为ε1,ε2,…,εn本来就是取的一组基,所以该向量组肯定是线性无关的。从而得证f有n个线性无关的特征向量。
<充分性证明>
[1]:已知条件,f有n个线性无关的特征向量η1,η2,…,ηn,且满足特征向量的定义
[2]:因为f是n维线性空间V中的一个线性变换,且向量组η1,η2,…,ηn是n个线性无关的特征向量。“n维空间中任意n个线性无关的特征向量都是该n维空间的一组基”,因此V的基就是η1,η2,…,ηn。
[3]:求解线性变换f在给定的一组基η1,η2,…,ηn下的矩阵表示,就是要求解原像ηi(i = 1,2,…,n)经过变换后得到的像f(ηi)在该组基下的坐标。且我们又已知f(ηi) = λiηi,所以能够写出来矩阵就是一个对角阵。
同样地,与矩阵对角化讨论思路一样,我们需要解决特征向量是否线性无关的问题,引出了定理二。
证明“线性相关性”题目的时候往往是根据定义,对于一组向量αi,写出一组线性方程Σki ·αi = 0,然后判断这个方程是否具有非零解。
按照线性相关性的定义写出x1η1+x2η2+…+xsηs = θ,按照线性变换f的线性性可以展开得到上式(1),等式两边同时乘上λ1即可得到上式(2)
思路:【归纳假设】
因为我们最终是要证明这s个特征向量线性无关,可以采用数学归纳法。
①当k = 1时,ηk = η1≠θ,一定是线性无关的;
②假设当k = s-1时,η1,η2,…,ηs-1是线性无关的;
③则需要证明当k = s时,η1,η2,…,ηs-1,ηs也是线性无关的。
则在假设的前提下,上图中s-1个特征向量,η2,…,ηs应该是线性无关的,所以各项系数应该全为0.
又因为特征值是互异的,所以只可能有x2 = x3 = … = xs = 0
将x2 = x3 = … = xs = 0代入到x1η1+x2η2+…+xsηs = θ,则有x1η1 = θ,所以能推出x1 = 0,最终推出这s个向量都是线性无关的。
至此,当我们判断一个线性变换是否可对角化的时候,只需要判断这个线性变换是否具有n个线性无关的特征向量;
要判断这n个特征向量是否线性无关,只需要确定其对应的n个特征值是不是互异的。
同样地,各组线性无关的特征向量组合在一个依然是一组线性无关的特征向量。
略去不证。
对于线性无关特征向量的个数这一概念,还可以借助“特征子空间”进行描述。
(1)f 的相应于特征值 λ0 的特征子空间
【为什么V0一定是子空间】
对于f(η) = λ0·η,可以把这一线性空间看成是【f-λ0·I】的核子空间,即Ker(f-λ0·I),其中I是恒等变换。
把核子空间的定义代入,Ker(f-λ0·I) = {η|f-λ0·I = θ} = {η|f = λ0·I },也就是说f的作用就是使原像在数值上扩大或缩小λ0倍,满足这样关系的原像必然满足f(η) = λ0η的关系式。
【V0中不止包含f线性变换对应于λ0的特征向量】
- V0是一个子空间,那么零向量θ肯定是要在子空间中的。
- 我们可以将θ代入进行验证,f(θ) = λ0θ = θ,所以θ∈V0。
综上,Vλ0里面所含的向量应该是线性变换f关于λ0的特征向量以及零向量。
(2)重要性
我们之前提起过,引出“特征子空间”这一概念是为了对【线性无关的特征向量的个数】进行描述。
基于此,f 的属于 λ0 的线性无关的特征向量的个数 = dim(Vλ0)
【例】 求解给定的线性变换的特征值和特征子空间
求解线性变换的特征值,就是把线性变换关于某一组基的矩阵求解出来,然后求解该矩阵的特征值。
本题所示的这个线性变换的特征多项式和特征值我们在《【矩阵论】矩阵的相似标准型(1)》中求解过了
部分演算如下图所示,其特征值是一个四重根——0
则我们要求的V0 = { η | f(η) = θ } = Ker(f)
在该系列第(1)篇博文中我们对线性变换关于特征值0的特征向量也都进行了求解,形如 a[[1,0],[-1,0]]+b[[0,1],[0,-1]],其中a和b不全为0。
也就是说V0这个空间是由[[1,0],[-1,0]]和[[0,1],[0,-1]]这两个向量向量张成的子空间,因此要求解V0的维数,只需要验证该两个向量构成的向量组的秩。
显然,这两个向量线性无关,所以特征子空间的维数为2,基就是该向量组。
(1)定理描述
关于特征值的代数重数和几何重数
ri:【代数重数】,对于特征方程进行代数求解得到的特征根的重数。
dim Vλi:【几何重数】,关于特征值λi的特征子空间的维数,从几何的角度去观察。
(2)定理证明
【方法论】
碰到有子空间、线性变换与矩阵这样类型的证明过程时,老师有几个惯用的证明技巧:
①将子空间的一组基进行拓展,得到更大的一个空间的一组基
②针对扩展出来的基,把线性变换的矩阵表示求解出来
p.s. 此时这个求解出来的矩阵往往具有较好的运算性质,比如是对角或者是上三角矩阵之类的。
对于线性变换f,任取一个特征值λ0,设f对应于该特征值的特征子空间的维数(几何重数)为t,则构造出该特征子空间的一组基。
通过线性无关向量组的拓展,可以把特征子空间Vλ0的一组基ε1,ε2,…,εt扩展成线性变换所在的线性空间V的一组基ε1,ε2,…,εt,εt+1,εt+2,…,εn
接下来关于这一组基ε1,ε2,…,εt,εt+1,εt+2,…,εn,求解线性变换 f 的矩阵表示:
【强调一下】
在某一组基下求解线性变换f的矩阵表示时,打好框架——
(f(ε1),f(ε2),…,f(εn)) = (ε1,ε2,…,εn)·A
打好框架后,对于矩阵A,可以每一列每一列地单独考虑。
其第一列就应该是f(ε1)这个变换后的像在基ε1,ε2,…,εn下的坐标表示。
因为ε1在f关于λ0的特征子空间之中,所以具有f(ε1) = λ0ε1的关系,故第一列只有第一个元素为λ0,其余均为0,剩下t列(均在特征子空间中)以此类推。
剩下的n-t列,我们不需要额外关注,故写成下图形式。
既然得到了矩阵A的形式,那么我们要利用这个矩阵来求解线性变换f的特征多项式。
按照分块矩阵行列式的运算规则,可知道|λI-A|中至少包含t个(λ-λ0)的因子。(分块矩阵的左上角分块)
因此就证明出特征值λ0的几何重数t是不大于特征值的代数重数的。
对于一系列等价条件的证明,往往采用循环证明的方法。
【1→2】
假设线性空间V是n维的,那么对于线性变换f∈End(V),f的特征多项式一定是n次的。
故:r1+r2+…+rs = n
又:f是可以对角化的。
根据线性变换可对角化的三个性质中的第三点,可以知道f一定有n个线性无关的特征向量。
结合代数重数与几何重数之间的不等关系与等式的夹逼,就能由定理1推得定理2.
【2→3】
【方法论】
证明某个集合是另一组集合的直和,需要考虑两个问题:
其一,另一组集合的和运算是否为直和
其二,左边的集合和另一组集合和运算的结果是否相等。
Vλ1+Vλ2+…+Vλs是直和
按照往常我们要证明直和,通常都会采用这些集合的交空间为零空间来证明。
但是对于特征子空间,我们有更方便利用的性质定理。
根据前面的定理,我们知道,在各个Vλi中找到一组线性无关的特征向量(i= 1,2,…,s),然后把它们合并在一起,依然是一组线性无关的向量。
换言之,如果在各个特征子空间中找到它们的基,它们的基合并起来也应该就是Vλ1+Vλ2+…+Vλs对应的基,这一点就满足了直和运算的判定命题。
V = Vλ1+Vλ2+…+Vλs
按照往常证明两个集合相等往往是采用两个集合的相互包含性。
这里因为若干特征子空间的和一定也是V空间的子空间,证明一个空间和其子空间相等只需要证明两个空间的维度相等即可。
[1]:已经证明了Vλ1+Vλ2+…+Vλs是直和,所以直和的空间维度等于各个部分空间的维度之和
[2]:根据第2点的已知条件dimVλi = ri
[3]:根据题干中特征多项式的表示,重根的重数之和就应该等于原空间V的维数。
证毕。
【3→1】
根据空间的直和运算,可以把每一个特征子空间的基列出来,这些基拓展在一块儿就构成了线性空间V的基。
把线性变换f在V的这组基下的矩阵表示写出来,如下图所示,显然是一个对角阵。
故证明出线性变换f的可对角化。
(3)意义
三条等价定理的证明已经结束,如果我们再返回去看看这三条定理的本质,其实和矩阵可对角化的三条等价定理是一致的。
第二条——说明了每个特征值对应的特征向量有多少个是线性无关的;
第三条——说明了每个特征值的无关特征向量可以组合在一起。
p.s. 只不过用“直和”这种描述方式更显得清楚。
【例】线性变换的系列题目
系列题目:
线性变换的矩阵表示/
线性变换的特征量与特征子空间的求解/
线性变换可对角化的判断
下面求特征子空间的基时要注意:
将特征值代入之后,需要求解一个矩阵方程。
矩阵方程求出来的基础解系并不一定就是需要的特征子空间的基,基础解系只是在我们所选定的基下的坐标表示,还要把坐标和基一起运算才能得到最终的向量——所求的向量才是特征子空间的基。
①代数重数 = 几何重数
dim V0 = 2;dim V3 = 2;
②线性无关的特征向量的个数
在V0和V3特征子空间中均分别找出了2个线性无关的特征向量,一共具有4个线性无关的特征向量且空间C2x2在选定的基表示下也是四维的。
③基的拓展性
将V0和V3特征子空间的基拿出来拓展在一起,就是C2x2空间的基。
②定理证明
【必要性】
按照矩阵相似于对角阵的定义,可以得到
其中,对角阵是若干个分块对角矩阵,有ri个λi,i = 1,2,…s。
前几篇文章我们讨论了很多有关化零多项式、最小多项式的相关内容。我们知道,相似的两个矩阵具有相同的最小多项式。
因此,想要证明矩阵A的最小多项式没有重根,只需要证明与矩阵A相似的对角矩阵Λ的最小多项式没有重根即可。
矩阵Λ的可能的最小多项式形式为:
且经过验证,该多项式次数最低且是化零多项式,它就是我们需要的最小多项式。因为λi(i=`1,2,…,s)是互不相同的特征值,所以显然该最小多项式是没有重根的。
【充分性】
现已知A的最小多项式没有重根,则可以把A的最小多项式写出如下:
要能够证明矩阵A相似于对角阵,矩阵对角化的判定定理和性质很有多,我们选择证明——矩阵A有n个线性无关的特征向量。
根据已知直到A有s个互异的特征值,只要求出对应每一个特征值有多少线性无关的特征向量,这些无关向量的个数总和为n即可。
按照特征值和特征向量的计算方法,对于特征值λi,需要求解齐次线性方程组(A-λi·I)x = θ,求解出其的基础解系中有多少个向量,则对应就有多少个线性无关的特征向量。
熟悉矩阵的列空间和左零空间的关系的话,对于一个n阶方阵,其列空间的秩如果为r,则左零空间的秩就为n-r;
且左零空间的秩就是齐次线性方程组基础解系中向量的个数。
现在需要求解Σr(A-λiI)的数值,用到我们前面证明过的引理。
因为最小多项式也是化零多项式,所以代入矩阵A进入mλ表达式,即有:
(A-λ1I)·(A-λ2I)…(A-λsI) = O,所以Σr(A-λiI)≤(s-1)n
回代入sn-Σr(A-λiI)≥n;又因为矩阵A是n阶的,其含有的无关特征向量不会超过n。
综上,得证A具有n个线性无关的特征向量→A是相似于对角阵的。
【例】-1 证明矩阵可对角化
矩阵的最小多项式没有重根→矩阵可对角化,这是很方便也很好用的一个证明性质。
以上,可以根据矩阵的等式关系得到矩阵的化零多项式,且该化零多项式无重根。
又已知矩阵的最小多项式可以整除化零多项式,那么矩阵的最小多项式就更加没有重根了。
从而能够证明出矩阵可以对角化。
【例】-2 已知一个矩阵方程,求解矩阵相关的行列式
已知一个有关矩阵的方程,可以挖掘出诸如化零多项式、特征量等很多信息。
Tips:另外在有“相似”关系的问题中,常用到形如P-1AP这样的运算式,这就是利用了矩阵的相似关系。
相似的矩阵往往会具有很多的相同量——如特征值、特征多项式等等。
且P是一个可逆矩阵,这对于行列式运算也有很大的简化作用。
根据前面的定理,确定了矩阵A可以对角化,且也确定了其相似的对角阵的一般形式
根据已知条件 r(A-5I) = r,因为相似的矩阵具有相同的秩,所以对于(A-5I)进行相似变换,得到Λ-5I这样的矩阵;
Λ的形式之前已经确定了如上图,再减去5倍单位矩阵后只剩下左上部分的s阶的-7倍单位阵;
这样的矩阵秩为r,说明s = r。
p.s. 希望读者可以体会到,对于可对角化的矩阵来说,利用相似变换,把复杂矩阵的求秩、行列式或者一些代数运算统统转换成对角阵的运算,可以减少很多计算量,甚至让问题可行。
而在这之前,要先能确定一个矩阵是否可对角化是很重要的。