本文是笔者用于复习本科期间所学线性代数,试图用一种更易接受的方式加强记忆。
矩阵所代表的线性变化可以分为以下两种:旋转和拉伸。
而特征向量的就是【经过变化后只发生了拉伸的方向】。特征值是拉伸的程度。所以第一个基础公式为 A x = λ x Ax = \lambda x Ax=λx,根据这个公式可以得到特征值的求法, ( A − λ E ) x = 0 (A-\lambda E)x = 0 (A−λE)x=0, 要使其有非0解,必须满足 ∣ A − λ E ∣ = 0 | A-\lambda E|=0 ∣A−λE∣=0 ,后文称之为【特征方程】。
下面讨论特征值和特征向量的性质,并给出简单的文字证明。
相似的来源是【基坐标的转化】,其中A和D代表的是同一种变化。故而相似矩阵有相同的特征向量和特征值。相似被定义为 D = T − 1 A T D = T^{-1}AT D=T−1AT 。此时D和A相似。
对角化就是从相似中演变出的一个概念,因为【对角化后的】矩阵有特别好的性质,我们在这个对角矩阵上,可以直接看作不同维度上的拉伸,而不用旋转,尤其是在幂的计算上格外方便。那么,什么样的矩阵可以对角化呢?
答案是【有n个线性无关的特征向量】的n阶矩阵。
根据n阶矩阵有n个特征值,如果把上面那句话换个说法,可以是【所有的特征向量都线性无关】,我们已经知道,不同特征值的特征向量一定线性无关,那么条件就变成【k重特征值有k个线性无关的特征向量】,所以我们这里引入了两个概念,来描述这两个数值。
而它们的关系是:针对某个特定的特征值,【代数重数 ≥ \geq ≥几何重数】。显而易见,如果有超过代数重数的无关的特征向量,那n维矩阵对应超过n个特征向量,对于特征方程而言显然是不合理的。
于是,一个矩阵可以相似对角化的另一个充要条件是:【每一个特征值的几何重数都等于它的代数重数】。
正交的定义其实是由勾股定理推导而来,此处我们不深究,直接使用 a ⋅ b = 0 a · b = 0 a⋅b=0 这种浅显的定义。
根据上面的相似,可以知道,一个变换可以在不同的视角来看,也就是不同的基向量。那么如果用一组【规范的】,【相互正交的】基来表示这个矩阵,任一向量的坐标就可以通过简单的投影确定了。下面我们先定义【正交矩阵】。
正交矩阵:由一组规范正交基 α 1 , α 2 . . . α n \alpha_1, \alpha_2...\alpha_n α1,α2...αn 组成的矩阵,满足 α i ⋅ α j = 0 \alpha_i · \alpha_j = 0 αi⋅αj=0, α i ⋅ α i = 1 \alpha_i · \alpha_i = 1 αi⋅αi=1。
【施密特正交化】可以将任意一组线性无关的基转化为规范正交基,也就是总有一组n个相互正交的基,可以表示n维空间。参考资料1中给出了很详细的推导过程和动画,这里只放一个图。每次确定一个基向量,向当前所有基向量投影,和就是新形成的直角三角形中的一条边。此时矩阵被正交化。再除以各自的模,得到的就是规范化后的正交矩阵。
讨论一个问题,经过施密特正交化后得到的向量还是原矩阵的特征向量吗?
答案是:需要满足【不同特征向量正交】或【对应同一特征值】。第一种情况无须规范化。第二种情况是我们通常使用施密特正交化的时候,此时,因为施密特正交化出的基和原基是同一个子空间的,所以仍然满足特征向量的公式。而如果把不同特征值的特征向量混在一起正交化,其对应的特征方程不同,无法进行线性的相加减,就无法保证其仍是特征向量。
下面讨论一种特殊的矩阵,【实对称矩阵】,这部分的证明比较复杂,仅给出对实对称矩阵的一种理解,就是所有的旋转都是“相对”的,比如维度1向维度3倾斜了k,那维度3一定也向维度1倾斜了k。
有一点比较奇怪的是,实对称矩阵并不能保证全部满秩,为什么还能对角化?此时,不满秩的部分特征值可以是0,这样对角化后不改变秩,所以不一定满秩。换言之,【实对称矩阵的秩等于非0特征值的个数】。n阶实对称矩阵无法保证有n个不同特征值,但一定可以保证有n个无关特征信息。
特征值体现了矩阵内禀的性质,有着广泛的应用:薛定谔方程中它对应能量,马尔可夫均衡态计算的关键,微分方程中相图的边界,谱聚类中所谓的谱即特征值…
上面提到,只有【有n个线性无关的特征向量】的n阶矩阵才能进行特征值分解,此处将该概念推广至一般矩阵。
下面引入【奇异值分解】的概念。不是所有的矩阵都能对角化(对称矩阵总是可以),而所有矩阵总是可以做奇异值分解的。同时,特征向量仅仅是代表了反向不变的地方,除非正交,否则“特征向量不变的方向并不保证是拉伸效果最大的方向,而这是奇异向量的方向。”
这个理论有很多应用,譬如一堆数据中,经过协方差矩阵的计算,奇异值最大的方向代表的是就方差最大的,也就是实际应用中变化最剧烈的。下面讨论背后的数学原理。先通过乘以自身的转置得到对称矩阵,然后特征值分解,得到两边的不同矩阵。
理解了正交矩阵的本质是仅旋转不拉伸,对角矩阵的本质是仅拉伸不旋转,下面这个图可以很好的展现如何把一个复杂的变换分为“旋转-拉伸-旋转”三步。
单独将奇异值分解区别于特征值分解,是因为该部分内容常常不在线性代数的基础内容中,而是作为特征值分解的一种扩展和应用。无论是特征值分解,还是奇异值分解,只要我们【保证了特征向量正交】,此时就保证了最开始的基是互相正交的,也就可以【保证特征值最大的方向就是拉伸最大的方向】。图中v1,v2只是代表了被施加变换两个任意的向量,而非基。
在几何学中,椭圆双曲线等图形有着类似但不同的结构,于是对二次曲线和二次曲面的分类问题的讨论引起了二次型这个概念。它们有着类似的性质,也有着不同。【二次型】的规范定义是n个变量上的【二次】【齐次】多项式,因为一次项并不影响形状,只影响位置,所以不参与讨论。
此时, f ( x 1 1 , x 2 , . . . x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i x j f(x1_1, x_2, ...x_n) = \sum^n _{i=1} \sum^n_{j=1} a_{ij}x_ix_j f(x11,x2,...xn)=∑i=1n∑j=1naijxixj 可以被表示成矩阵形式。注意,这里我们将故意取 a i j = a j i = 1 / 2 x i x j 前 的 系 数 a{ij} = a{ji} = 1/2x_ix_j前的系数 aij=aji=1/2xixj前的系数,来保证矩阵的对称性,以获得更好的性质。【对称矩阵和二次型一一对应】。
现在,我们知道了二次齐次多项式代表的是曲线(面),但更喜欢统一形式的二次型:
上文的相似是用于描述相同变换在不同基下的表示,而合同是类似定义的一种关系,用于描述【相同的二次型图形在不同基下的表示】,所以人们想要通过基变换来统一二次型的形式,下面展示公式的推导过程。
选定两组基,矩阵 C 是两个基之间的过渡矩阵,设 x,y 是图形上同一个点在两个参考系中的坐标表示,则有 x = C y x=Cy x=Cy,这里必须满足【C可逆】才能保证这两组基都是满秩,也就是【过渡矩阵一定是可逆】的线性变换。
于是有 x T A x = ( C y ) T B ( C y ) = y T C T B C y x^TAx=(Cy)^TB(Cy)=y^TC^TBCy xTAx=(Cy)TB(Cy)=yTCTBCy,所以 A = C T B C A=C^TBC A=CTBC 就是描述这两个矩阵之间的关系等式,也就是合同。
会发现,A是对称矩阵,根据相似性知道存在正交矩阵C使得 C − 1 A C = C T A C = Λ C^{-1}AC = C^TAC = Λ C−1AC=CTAC=Λ。说明【任一实对称矩阵都与对角矩阵合同】。换句话说,合同矩阵的出现,就是帮助我们来更方便的化简矩阵为标准型或规范型。
下面讨论合同矩阵的充要条件:【有相同正负惯性指数】,这里的惯性指数就是二次型的系数为正/负的个数。现在所有的实对称矩阵已经可以与一个对角阵合同了,那我们对这个对角阵施加以下变换:
用这个方式构造矩阵,所有的对角阵都会合同于一个由 ±1 以及 0 组成的对角阵,而正负取决于对角阵中特征值的正负。所以合同矩阵可以无限传递下去,反之拥有相同正负惯性指数的矩阵也可以无限变换成相同的规范型。这个定理的几何意义就是【标准型系数的正负取决了当前二次曲线(面)的形状】,而形状不会随着坐标系的变换而变换,椭圆仍是椭圆,双曲线仍是双曲线,改变的是描述这个形状的基向量!
回顾一下【矩阵的三种关系】,限制条件依次从强到弱:相似时,秩、特征值不变 == 合同时,秩、惯性指数不变 > 等价时,秩不变。其中对于实对称矩阵而言,相似 > 合同 > 等价。
正定二次型这个概念非常好理解,给出其等价形式:n 阶实对称矩阵 A 正定 ⇔ A 的正惯性指数等于 n ⇔ A 与单位阵合同 ⇔ A 的特征值全部大于 0 ⇔ A 的顺序主子式大于 0。
实际上二次型可以划分成正定,负定,半正定等等,就是解决了最初的曲面分类问题。同时,这些矩阵被广泛应用于其它领域,比如微分方程的极值判断,最小二乘法等。