A ⋅ A − 1 = A − 1 ⋅ A = E A\cdot A^{-1}=A^{-1}\cdot A = E A⋅A−1=A−1⋅A=E
矩阵的几何意义是对一组向量进行变换,包括方向和模长的变化。而逆矩阵表示对其进行逆变化。
为什么特征值之和会等于矩阵的迹?
高次方程的韦达定理
正交矩阵满足
A T ⋅ A = E A^{T}\cdot A = E AT⋅A=E,可得 A T = A − 1 A^{T}=A^{-1} AT=A−1,因此
A T ⋅ A = A ⋅ A T = E A^{T}\cdot A=A\cdot A^{T}=E AT⋅A=A⋅AT=E
正交矩阵的列向量都是单位向量,且两两正交。对于行向量也是如此。
例如正交矩阵:
[ c o s ( θ ) − s i n ( θ ) s i n ( θ ) c o s ( θ ) ] \left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{matrix} \right] [cos(θ)sin(θ)−sin(θ)cos(θ)]
其转置矩阵,同时也是其逆阵
[ c o s ( θ ) − s i n ( θ ) − s i n ( θ ) c o s ( θ ) ] \left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ -sin(\theta) & cos(\theta) \end{matrix} \right] [cos(θ)−sin(θ)−sin(θ)cos(θ)]
对于一个方阵 A A A,若其列向量相互垂直且模长为1,则 A A A为正交阵
首先看正定矩阵的定义:
对于任意非零的向量 x x x,和一个对称矩阵 A A A,如果有
x T A x > 0 x^{T}Ax>0 xTAx>0
则称矩阵 A A A是正定矩阵。正定矩阵的含义是:一个向量经过矩阵 A A A的变换后,和自身的点积大于0。也就是说,正定矩阵对应的变换不会把变换后的向量变到向量本身所垂直的平面的另一侧。具体到2维的例子就是,怎么变,变换后的向量和自身的夹角都不会大于 90 ° 90\degree 90°
关于正定矩阵是不是一定对称的问题
两个向量组可以互相线性表出,即是第一个向量组中的每个向量都能表示成第二个向量组的向量的线性组合,且第二个向量组中的每个向量都能表示成第一二个向量组的向量的线性组合。
设 A , B A, B A,B都是 n n n阶矩阵,若有可逆矩阵 P P P,使
P − 1 A P = B P^{-1}AP=B P−1AP=B
则称 A A A与 B B B相似。
相似矩阵的几何意义如下:
假设一个矩阵 C C C,则:
C B = C P − 1 A P \begin{aligned} CB=CP^{-1}AP \end{aligned} CB=CP−1AP
从上式可以看出,使用 B B B对 C C C进行变化,等价于先对 C C C进行换基,然后进行 A A A变化,最后再次进行换基。相似矩阵是在两个不同的基上,对矩阵 C C C进行相同的变化
对 n n n阶矩阵 A A A,寻求相似变换矩阵 P P P使 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ
其中, Λ \Lambda Λ为对角阵,这就称为矩阵 A A A的对角化。
若 A A A为实对称,则一定可以对角化
证明参看(实)对称矩阵的相似,对角化,正定,特征值等性质的部分汇总及证明:对称阵 A A A可以对角化是因为:对于 A A A中的任意特征值 λ 1 \lambda_{1} λ1,满足其代数重数等于其几何重数,这使得上述特征值分解内容中的 X X X中的向量线性无关,即 ∣ X ∣ ≠ 0 |X|\neq0 ∣X∣=0,因此可以写成
A X = X ⋅ Λ ⇒ Λ = X − 1 A X AX =X\cdot \Lambda \Rightarrow \Lambda=X^{-1}AX AX=X⋅Λ⇒Λ=X−1AX
对 X X X进行施密特正交化,(参看如何理解施密特(Schmidt)正交化),将 X X X变为正交阵 P P P,其中 X X X和 P P P是可以相互表示的(参看矩阵等价的几何意义),即存在一个可逆矩阵 D D D满足
X = P D − 1 X = PD^{-1} X=PD−1
因此 P T A P = P − 1 A P = Λ P^{T}AP=P^{-1}AP=\Lambda PTAP=P−1AP=Λ
其中 Λ \Lambda Λ是以 A A A的特征值为对角元的对角阵。
对于方阵 A n , n A_{n,n} An,n,假设其有 n n n个特征值和特征向量,特征值分别为 λ 1 , λ 2 , λ 3 ⋯ λ n {\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n} λ1,λ2,λ3⋯λn ,特征向量分别为 x 1 , x 2 , x 3 , ⋯ , x n x_{1},x_{2}, x_{3},\cdots,x_{n} x1,x2,x3,⋯,xn,因为 A n , n A_{n,n} An,n是一个普通方阵,因此 λ 1 , λ 2 , λ 3 ⋯ λ n {\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n} λ1,λ2,λ3⋯λn可能出现重复的多个值,其满足如下所示:
A ⋅ x 1 = λ 1 ⋅ x 1 A ⋅ x 2 = λ 1 ⋅ x 2 A ⋅ x 3 = λ 1 ⋅ x 3 ⋮ A ⋅ x n = λ 1 ⋅ x n A\cdot x_{1}={\lambda}_{1}\cdot x_{1} \\ A\cdot x_{2}={\lambda}_{1}\cdot x_{2} \\ A\cdot x_{3}={\lambda}_{1}\cdot x_{3} \\ \vdots \\ A\cdot x_{n}={\lambda}_{1}\cdot x_{n} A⋅x1=λ1⋅x1A⋅x2=λ1⋅x2A⋅x3=λ1⋅x3⋮A⋅xn=λ1⋅xn
将这些方程组合到一起为:
A ⋅ X = A ⋅ [ x 1 , x 2 , x 3 , ⋯ , x n ] = [ A ⋅ x 1 , A ⋅ x 2 , A ⋅ x 3 , ⋯ , A ⋅ x n ] = [ λ 1 ⋅ x 1 , λ 2 ⋅ x 2 , λ 3 ⋅ x 3 , ⋯ , λ n ⋅ x n ] = [ x 1 , x 2 , x 3 , ⋯ , x n ] ⋅ [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n ] = X ⋅ Λ \begin{aligned} A\cdot X &= A\cdot [x_{1}, x_{2}, x_{3}, \cdots , x_{n}] \\ &=[A\cdot x_{1}, A\cdot x_{2}, A\cdot x_{3}, \cdots, A\cdot x_{n}] \\ &=[{\lambda}_{1}\cdot x_{1}, {\lambda}_{2}\cdot x_{2}, {\lambda}_{3}\cdot x_{3}, \cdots, {\lambda}_{n}\cdot x_{n}] \\ &=[x_{1}, x_{2}, x_{3}, \cdots, x_{n}] \cdot \left[ \begin{matrix} {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 & {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 &{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & {\lambda}_{n} \\ \end{matrix} \right] \\ &=X\cdot \Lambda \end{aligned} A⋅X=A⋅[x1,x2,x3,⋯,xn]=[A⋅x1,A⋅x2,A⋅x3,⋯,A⋅xn]=[λ1⋅x1,λ2⋅x2,λ3⋅x3,⋯,λn⋅xn]=[x1,x2,x3,⋯,xn]⋅⎣⎢⎢⎢⎢⎢⎡λ100⋮00λ20⋮000λ3⋮0⋯⋯⋯⋱⋯0000λn⎦⎥⎥⎥⎥⎥⎤=X⋅Λ
然而因为 ∣ X ∣ |X| ∣X∣的值可能为0,即 X − 1 X^{-1} X−1可能不存在,因此不可以写成如下形式。
A = X ⋅ Λ ⋅ X − 1 A =X\cdot \Lambda \cdot X^{-1} A=X⋅Λ⋅X−1
如果 A A A是对称阵,则 X X X中的列向量将线性无关,因此 X X X是可逆矩阵,可以写成如下所示:
A = X ⋅ Λ ⋅ X − 1 A =X\cdot \Lambda \cdot X^{-1} A=X⋅Λ⋅X−1
对于上式而言,其中 Λ \Lambda Λ是以 A A A的特征值为对角元的对角阵, X X X是特征值对应的特征向量,且特征向量互相正交。
对于实对称阵的特征向量,是一个基础解析
由此可得
X T ⋅ X = E X^{T}\cdot X =E XT⋅X=E
X T = X − 1 X^{T}=X^{-1} XT=X−1
故可得出, X X X为酉矩阵
因此
A = X ⋅ Λ ⋅ X − 1 = X ⋅ Λ ⋅ X T A =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T} A=X⋅Λ⋅X−1=X⋅Λ⋅XT
进一步地:
Λ = X − 1 ⋅ A ⋅ X = X T ⋅ A ⋅ X \Lambda =X^{-1} \cdot A \cdot X=X^{T} \cdot A \cdot X Λ=X−1⋅A⋅X=XT⋅A⋅X
实现了对称阵 A A A的对角化。
特征值分解的几何意义:将特征值分解为正交阵 × \times × 对角阵 × \times ×正交阵,即 A = X ⋅ Λ ⋅ X − 1 = X ⋅ Λ ⋅ X T A =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T} A=X⋅Λ⋅X−1=X⋅Λ⋅XT。其意义为将矩阵A对矩阵的变换,等价为旋转、伸缩、旋转这三个变化。
特征值分解也叫谱分解,其计算过程如下所示:
参看谱分解
有上述计算过程可以看出,对特征向量进行施密特正交化后的矩阵,等价于直接将特征向量进行归一化。
参看奇异值分解(SVD)
奇异值分解的揭秘(一):矩阵的奇异值分解过程
对于矩阵 A m , n A_{m,n} Am,n来说,其形状为 ( m , n ) (m,n) (m,n),假设 n < m n
那么对于 A T A A^{T}A ATA来说,其形状为 ( n , n ) (n,n) (n,n)假设 v i v_{i} vi为其特征向量, λ i \lambda_{i} λi为其特征值,因此满足:
v i T v i = 1 v_{i}^{T}v_{i}=1 viTvi=1
A T A v i = λ i v i A^{T}Av_{i}=\lambda_{i}v_{i} ATAvi=λivi
若 V = [ v 1 , v 2 , ⋯ , v n ] V=[v_{1},v_{2},\cdots, v_{n}] V=[v1,v2,⋯,vn], V V V的形状为 ( n , n ) (n,n) (n,n),则
A T A V = V Λ A^{T}AV=V\Lambda ATAV=VΛ
使用 A A A对向量 V V V进行变化,如下:
A V = A [ v 1 , v 2 , ⋯ , v n ] = [ A v 1 , A v 2 , ⋯ , A v n ] AV=A[v_{1},v_{2},\cdots, v_{n}]=[Av_{1},Av_{2},\cdots, Av_{n}] AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]
则变化后的 [ A v 1 , A v 2 , ⋯ , A v n ] [Av_{1},Av_{2},\cdots, Av_{n}] [Av1,Av2,⋯,Avn],对其进行如下处理 ( A v i ) T ( A v j ) = v i T A T A v j = v i T λ j v j = 0 (Av_{i})^{T}(Av_{j})=v_{i}^{T}A^{T}Av_{j}=v_{i}^{T}\lambda_{j}v_{j}=0 (Avi)T(Avj)=viTATAvj=viTλjvj=0
即,变化后的方阵的列向量,互相正交。
另外 ∣ A v i ∣ = ( A v i ) T ( A v i ) = v i T A T A v i = v i T λ i v i = λ i |Av_{i}|=\sqrt{(Av_{i})^{T}(Av_{i})}=\sqrt{v_{i}^{T}A^{T}Av_{i}}=\sqrt{v_{i}^{T}\lambda_{i} v_{i}}=\sqrt{\lambda_{i}} ∣Avi∣=(Avi)T(Avi)=viTATAvi=viTλivi=λi
令 u i = A v i λ i u_{i}=\frac{Av_{i}}{\sqrt{\lambda_{i}}} ui=λiAvi
可以看出, u i u_{i} ui是一个列向量,其形状为 ( m , 1 ) (m,1) (m,1),则 U = [ u 1 , u 2 , ⋯ , u n ] = [ A v 1 λ 1 , A v 2 λ 2 , , ⋯ , A v n λ n , ] U=[u_{1},u_{2},\cdots,u_{n}]=[\frac{Av_{1}}{ \sqrt{\lambda_{1}}},\frac{Av_{2}}{ \sqrt{\lambda_{2}}},,\cdots, \frac{Av_{n}}{ \sqrt{\lambda_{n}}},] U=[u1,u2,⋯,un]=[λ1Av1,λ2Av2,,⋯,λnAvn,]
因此, U U U的形状为 ( m , n ) (m,n) (m,n)。其列向量是互相正交的单位向量。
下面来讨论 U U U中的向量的特点:
u i = A v i λ i λ i u i = A v i A T A v i = λ i v i A A T A v i = A λ i v i A A T λ i u i = λ i λ i u i A A T u i = λ i u i \begin{aligned} u_{i}&=\frac{Av_{i}}{\sqrt{\lambda_{i}}} \\ \sqrt{\lambda_{i}} u_{i}&=Av_{i} \\ A^{T}Av_{i}&=\lambda_{i}v_{i} \\ AA^{T}Av_{i}&=A\lambda_{i}v_{i} \\ AA^{T}\sqrt{\lambda_{i}} u_{i}&=\lambda_{i}\sqrt{\lambda_{i}} u_{i} \\ AA^{T} u_{i}&=\lambda_{i} u_{i} \\ \end{aligned} uiλiuiATAviAATAviAATλiuiAATui=λiAvi=Avi=λivi=Aλivi=λiλiui=λiui
由此可以看出 u i u_{i} ui是 A A T AA^{T} AAT的特征向量, λ i \lambda_{i} λi是特征值
另外,对于
A V = A [ v 1 , v 2 , ⋯ , v n ] = [ A v 1 , A v 2 , ⋯ , A v n ] = [ λ 1 u 1 , λ 2 u 2 , ⋯ , λ n u n ] = [ u 1 , u 2 , ⋯ , u n ] [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n ] = [ u 1 , u 2 , ⋯ , u n , ∣ u n + 1 , u n + 2 , ⋯ u m ] [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n 0 0 0 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 0 0 ] = U Σ \begin{aligned} AV&=A[v_{1},v_{2},\cdots, v_{n}] \\ &=[Av_{1},Av_{2},\cdots, Av_{n}] \\ &=[\sqrt{\lambda_{1}} u_{1}, \sqrt{\lambda_{2}} u_{2}, \cdots, \sqrt{\lambda_{n}} u_{n}] \\ &=[u_{1}, u_{2}, \cdots, u_{n}] \left[ \begin{matrix} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \end{matrix} \right] \\ &=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}] \left[ \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array} \right] \\ &=U\Sigma \end{aligned} \\ AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]=[λ1u1,λ2u2,⋯,λnun]=[u1,u2,⋯,un]⎣⎢⎢⎢⎢⎢⎡λ100⋮00λ20⋮000λ3⋮0⋯⋯⋯⋱⋯0000λn⎦⎥⎥⎥⎥⎥⎤=[u1,u2,⋯,un,∣un+1,un+2,⋯um]⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡λ100⋮00⋮00λ20⋮00⋮000λ3⋮00⋮0⋯⋯⋯⋱⋯0⋮00000λn0⋮0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=UΣ
其中 U = [ u 1 , u 2 , ⋯ , u n , ∣ u n + 1 , u n + 2 , ⋯ u m ] U=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}] U=[u1,u2,⋯,un,∣un+1,un+2,⋯um]
Σ = λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n 0 0 0 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 0 0 \Sigma= \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array} Σ=λ100⋮00⋮00λ20⋮00⋮000λ3⋮00⋮0⋯⋯⋯⋱⋯0⋮00000λn0⋮0
其中 U U U的形状为 ( m , n ) (m,n) (m,n), Σ \Sigma Σ的形状也是 ( m , n ) (m,n) (m,n)
因为 U U U的前 n n n个列向量是 A A T AA^{T} AAT的特征向量,因此对于后添加进去的 [ u n + 1 , u n + 2 , ⋯ u m ] [u_{n+1}, u_{n+2}, \cdots u_{m}] [un+1,un+2,⋯um],并无特殊要求,也可以取为 A A T AA^{T} AAT的特征向量,因此整个矩阵 U U U即是矩阵 A A T AA^{T} AAT的特征向量集合。又因为 A A T AA^{T} AAT是对称阵,因此 U U U是正交阵。同时, V V V也是正交阵。
A V = U Σ A = U Σ V − 1 = U Σ V T \begin{aligned} AV&=U\Sigma\\ A&=U\Sigma V^{-1}=U\Sigma V^{T} \end{aligned} AVA=UΣ=UΣV−1=UΣVT
奇异值分解的计算过程参看奇异值分解(SVD)
参看Hessian矩阵的几何意义
Hessian矩阵我们已经知道是二阶导数矩阵,有时候二阶导数仍然带有未知数,所以求给定点的Hessian矩阵才有意义,给定坐标后,Hessain矩阵变成常数矩阵,然后就可以求其特征值
协方差矩阵的计算及意义
形象理解协方差矩阵
翻译:协方差矩阵的几何解释
协方差矩阵实质上是一个线性变换,主要思想有如下几点: