再介绍奇异矩阵以及矩阵的广义逆之前,先复习几个概念,然后我一步步给出奇异矩阵和广义逆的介绍。
定义1 余子式:在 n n 阶行列式 |A| | A | 中,划去元素 aij a i j 所在的行和列,剩下的元素(显然,剩下了 (n−1)2 ( n − 1 ) 2 个元素),按照原先的排列生成的新行列式的值称为元素 aij a i j 的余子式,记为 Mij M i j 。如下所示:
定义2 代数余子式:由上面余子式的定义,可以得到 n n 阶行列式 |A| | A | 中元素 aij a i j 的代数余子式 Aij A i j 。其计算公式如下:
代数余子式是一个很有用的概念,因为用它可以直接计算出行列式的值。我们有下面这样一个定理存在:
定理1:行列式等于它某一行的元素分别与它们对应的代数余子式的乘积之和。可以用如下公式表达:
定理1其实就是行列式计算方法的另一种表达。由这个定理,我们可以接着得到下面的定理2:
定理2:行列式中一行的元素与另一行相应元素的代数余子式的乘积之和为0。可以用如下公式表达:
其中, aij=akj,j=1,2,…,n;i≠k a i j = a k j , j = 1 , 2 , … , n ; i ≠ k .这个定理的证明思路可以用行列式性质:“一行的数乘加到另一行,行列式的值不变”。具体的证明我这里略过了。
定义3 伴随矩阵:由矩阵 A A 中所有元素的代数余子式按照 A A 中原有的排列的转置之后,构造而成的矩阵称为 A A 的伴随矩阵。也就是下面公式中的 A∗ A ∗ .
注意,伴随矩阵中,元素的排列恰好原矩阵的转置序列是一致的。这样,根据上面说的定理1和定理2,我们可以得到这样的结论: AA∗=A∗A=dE A A ∗ = A ∗ A = d E .
解释一下,上面的公式中, d d 是 A A 的行列式的值, E E 是单位矩阵。
根据 AA∗=A∗A=dE A A ∗ = A ∗ A = d E 的性质,不难得到矩阵的逆的计算方式如下:
根据这个公式,也就可以直接得到矩阵可逆的充要条件,即下面的定理3:
定理3:矩阵可逆的充要条件是矩阵行列式的值不为0( |A|≠0 | A | ≠ 0 )
我们把这种行列式不为0的矩阵称为是“非退化”的,如果是方阵,那也称之为是“非奇异”的。与“非奇异”相对应的“奇异”矩阵则是数据挖掘,机器学习领域中非常重要的一个概念。下面将具体介绍。
定义3 奇异矩阵:奇异矩阵就是不满秩的方阵。
通过这个定义,就不难推出以下3点奇异矩阵的性质(记奇异矩阵为 A A ):
广义逆矩阵在数理统计、系统理论、优化计算和控制论等多领域中有重要应用。它的概念与上面的奇异矩阵密切相关,被如下定义:
定义4 广义逆矩阵:若 A A 是奇异阵或长方阵,根据上面说的奇异矩阵的性质3可知,线性方程组 Ax=b A x = b 有无穷多的解或者无解。若有解,则解为 x=Xb+(E−XA)y x = X b + ( E − X A ) y ,其中у是维数与A的列数相同的任意向量, X X 是满足 AXA=A A X A = A 的任意矩阵,那么我们称 X X 为 A A 的广义逆矩阵,用 Ag,A−,A1 A g , A − , A 1 等符号表示。当 A A 为非奇异矩阵时, A A 的广义逆矩阵就是 A A 的逆。
定义5:满足以下3个性质的广义逆矩阵 M M 称为 A A 的M-P广义逆矩阵矩阵,记为 A+ A + :
实际上,若 A A 是非奇异矩阵, A−1 A − 1 也满足上面这3个性质。也就是说,M-P逆就是通常逆矩阵的推广。
广义逆矩阵的计算方法大致可分为三类:以满秩分解和奇异值分解为基础的直接法,迭代法和其他一些常用于低阶矩阵的非平凡方法。我只介绍基于满秩分解和奇异值分解的推导过程。
对于 m×n m × n 的矩阵 A A ,假设其秩为 r r ,则 A A 有满秩分解 A=Fm×rGr×n A = F m × r G r × n 存在。那么 A A 的M-P逆可以通过满秩分解计算。下面我给出推导过程:
通过上面的公式,可以算得关于 A A 的广义逆。
对于 m×n m × n 的矩阵 A A ,其奇异值分解如下:
其中 U U 是 m×m m × m 的正交阵, V V 是 n×n n × n 的正交阵, Σ Σ 是 m×n m × n 的对角阵。关于奇异值分解的详细介绍可以查阅我之前的博客(矩阵的分解:满秩分解和奇异值分解)。
根据奇异值分解,可以通过下面的计算得到广义逆:
其中, Σ Σ 因为是对角阵,所以广义逆就是他所有元素的倒数。