矩阵论专栏:专栏(文章按照顺序排序)
本文以线性代数知识为基础。关于线代知识,如一些基本的秩(不)等式、零矩阵的判定条件等,可参考下面几篇博客。
矩阵论(零):线性代数基础知识整理(1)——逆矩阵、初等变换、满秩分解
矩阵论(零):线性代数基础知识整理(2)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换
矩阵论(零):线性代数基础知识整理(5)——特征值与相似
广义逆矩阵的部分主要包括以下内容:
- 左逆与右逆
- {1}逆
- 从 A x = y Ax=y Ax=y的求解引入{1}逆
- {1}逆的通式
- 用{1}逆讨论 A x = y Ax=y Ax=y以及 A X B = D AXB=D AXB=D的求解
- PM逆
- 定义
- PM逆的性质(存在性、唯一性、秩、计算性质、列空间、零空间)
- 用PM逆讨论 A x = y Ax=y Ax=y以及 A X B = D AXB=D AXB=D的解的存在唯一性
- PM逆的计算方法
- {1,4}逆
- 从极小范数解问题引入{1,4}逆
- A { 1 , 4 } = { M ∣ M A A H = A H } = { M ∣ M A = A + A } A\{1,4\}=\{M|MAA^H=A^H\}=\{M|MA=A^+A\} A{1,4}={M∣MAAH=AH}={M∣MA=A+A}
- 利用{1,4}逆解决极小范数解的存在唯一性
- {1,3}逆
- 从最小二乘问题引入{1,3}逆
- A { 1 , 3 } = { M ∣ A H A M = A H } = { M ∣ A M = A A + } A\{1,3\}=\{M|A^HAM=A^H\}=\{M|AM=AA^+\} A{1,3}={M∣AHAM=AH}={M∣AM=AA+}
- 利用{1,4}逆解决最小二乘问题以及最小二乘解与正规方程组的联系
- 极小范数最小二乘解问题
- 总结
因为内容比较多,目录中的内容分为上、下两篇博客来写。其中,上(本篇)介绍左逆右逆、{1}逆以及PM逆,下篇介绍{1,4}逆、{1,3}逆及其之后的内容。定理1-20在本文中,定理21-31在下篇博客中。
下篇博客链接:链接
【符号说明】
文中所用向量范数均指Frobenius范数/ l 2 l_2 l2范数。
F F F表示数域, F m × n F^{m\times n} Fm×n是指元素在数域 F F F内的 m × n m\times n m×n矩阵的集合, F r m × n F^{m\times n}_r Frm×n是指 F m × n F^{m\times n} Fm×n中所有秩为 r r r的矩阵。 Q Q Q、 R R R和 C C C分别表示有理数域、实数域和复数域,本文所讨论的数域仅限于这三种数域。单位矩阵用 I I I表示, n n n阶单位矩阵用 I n I_n In表示。
A H A^H AH是指 A A A的共轭转置。注意 ∀ A ∈ F m × n \forall A\in F^{m\times n} ∀A∈Fm×n,有 A H ∈ F n × m A^H\in F^{n\times m} AH∈Fn×m,这是因为域 F F F( F = Q 或 R 或 C F=Q或R或C F=Q或R或C)中的数取共轭后肯定还在 F F F中,例如实数的共轭是其自身。
我们用 i i i表示虚数单位,用 R e { } Re\{\} Re{}表示复数的实部, I m { } Im\{\} Im{}表示复数的虚部。
对矩阵 A A A, R ( A ) R(A) R(A)和 N ( A ) N(A) N(A)分别表示 A A A的列空间和零空间。
左逆矩阵与右逆矩阵
我们知道,只有方阵才有逆矩阵,且可逆方阵对方阵是有限制条件的,只有行列式不为零的方阵才可逆。可逆方阵给我们解线性方程组带来了很大的方便:设 A x = y Ax=y Ax=y是关于x的方程,若系数矩阵A是可逆方阵,则有唯一解 x = A − 1 y x=A^{-1}y x=A−1y,解的形式非常简单。然而对于一般的 m × n m\times{n} m×n系数矩阵A,有没有简洁的办法来求解这样的线性方程组呢?按照一般解方程的思路,如果有一个矩阵L,当我们用L左乘 A x = y Ax=y Ax=y的两端时(将得到 L A x = L y LAx=Ly LAx=Ly),能够恰好抵消掉A(也就是说 L A x = x LAx=x LAx=x),得到 x = L y x=Ly x=Ly,那么就“似乎”找到了解(为什么是似乎呢?这个后面再说)。什么时候 L A x = x LAx=x LAx=x成立呢?考虑一种最简单的情形: L A = I LA=I LA=I,这就引出了左逆矩阵的概念:
- 定义:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,若存在 L ∈ F n × m L\in F^{n\times m} L∈Fn×m,满足 L A = I n LA=I_n LA=In,则称 L L L是 A A A的一个左逆矩阵
自然先看一下左逆矩阵存在的条件是什么:
- 定理1:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,则 A A A的左逆矩阵存在的充要条件为 A A A列满秩
证明:
必要性:若存在 L ∈ F n × m L\in F^{n\times m} L∈Fn×m,满足 L A = I n LA=I_n LA=In,根据秩不等式有 n = r ( I n ) = r ( L A ) ⩽ r ( A ) n=r(I_n)=r(LA)\leqslant{r(A)} n=r(In)=r(LA)⩽r(A),又 r ( A ) ⩽ n r(A)\leqslant n r(A)⩽n,故 r ( A ) = n r(A)=n r(A)=n,即 A A A是列满秩的。
充分性:若 A A A是列满秩的,根据秩等式 r ( A H A ) = r ( A ) = n r(A^HA)=r(A)=n r(AHA)=r(A)=n知, A H A A^HA AHA是满秩方阵,即 A H A A^HA AHA可逆。设 L = ( A H A ) − 1 A H L=(A^HA)^{-1}A^H L=(AHA)−1AH,验证 L A = ( A H A ) − 1 A H A = I LA=(A^HA)^{-1}A^HA=I LA=(AHA)−1AHA=I,即 L L L是 A A A的一个左逆矩阵,因此A的左逆矩阵存在。
【注】 ( A H A ) − 1 A H (A^HA)^{-1}A^H (AHA)−1AH称为列满秩矩阵 A A A的左伪逆矩阵
这说明并非所有矩阵都有左逆矩阵,只有列满秩矩阵才可左逆。类比左逆矩阵,我们有右逆矩阵的概念:
- 定义:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,若存在 R ∈ F n × m R\in F^{n\times m} R∈Fn×m,满足 A R = I m AR=I_m AR=Im,则称 R R R是 A A A的一个右逆矩阵
- 定理2:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,则 A A A的右逆矩阵存在的充要条件为 A A A行满秩
右逆矩阵的分析跟左逆矩阵是类似的。 A H ( A A H ) − 1 A^H(AA^H)^{-1} AH(AAH)−1称为行满秩矩阵 A A A的右伪逆矩阵。
现在回到线性方程组的解的问题上来。虽然列满秩矩阵 A A A必有左逆 L L L,但是这意味着 A x = y Ax=y Ax=y的解就是 x = L y x=Ly x=Ly吗?实际上, x = L y x=Ly x=Ly是 A x = y Ax=y Ax=y的解还应该满足一个条件:将 x = L y x=Ly x=Ly代入 A x = y Ax=y Ax=y,等式依然成立,也就是说应有 A L y = y ALy=y ALy=y。不幸的是,左逆矩阵并不能满足这个条件,请看如下反例:
设 A = [ 1 1 0 1 0 0 ] A=\begin{bmatrix}1&1\\0&1\\0&0\end{bmatrix} A=⎣⎡100110⎦⎤,则可计算出A的左伪逆 L = [ 1 − 1 0 0 1 0 ] L=\begin{bmatrix}1&-1&0\\0&1&0\end{bmatrix} L=[10−1100], A L = [ 1 0 0 0 1 0 0 0 0 ] AL=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix} AL=⎣⎡100010000⎦⎤,对于 y = [ 0 0 1 ] y=\begin{bmatrix}0\\0\\1\end{bmatrix} y=⎣⎡001⎦⎤, A L y = 0 ≠ y ALy=0\neq y ALy=0=y。
这说明左逆、右逆并不能用来表示一般线性方程组的解,虽然刚开始它们看上去是可行的。
将左(右)逆矩阵的定义和逆矩阵的定义进行对比可以发现,前者的限制不如后者的限制严格,因此它们是一类伪逆。
{1}逆
我们讨论了左逆、右逆的概念及其存在的条件,它们并不是求解线性方程组的有力工具。现在我们从一般的线性方程组出发,探究什么样的矩阵(或者说什么样的伪逆)可以用来表达线性方程组的解。
对于一般的线性方程组 A x = y Ax=y Ax=y,如果它有解,按照奥卡姆剃刀原理,我们假定它一定有 x = B y x=By x=By这种形式的解。现在我们来探究一下这样的矩阵 B B B是什么:
- 定理3:设 A ∈ F m × n A\in{F^{m\times{n}}} A∈Fm×n, B ∈ F n × m B\in{F^{n\times{m}}} B∈Fn×m,则如下两命题等价:
(1) ∀ y ∈ F m \forall{y}\in{F^m} ∀y∈Fm,若关于 x x x的线性方程组 A x = y Ax=y Ax=y有解,则 x = B y x=By x=By是它的一个解
(2) A B A = A ABA=A ABA=A
证明:
(1) ⇒ \Rightarrow ⇒(2):任取 z ∈ F m z\in{F^m} z∈Fm,令 y = A z y=Az y=Az,线性方程组 A x = y Ax=y Ax=y必有解(显然 z z z就是它的一个解)。根据命题(1), x = B y = B A z x=By=BAz x=By=BAz也是它的一个解。把这个解代入原方程,得到 A B A z = A z ABAz=Az ABAz=Az。注意,任取 z ∈ F m z\in{F^m} z∈Fm,我们都得到了 A B A z = A z ABAz=Az ABAz=Az,也就是 ( A B A − A ) z = 0 (ABA-A)z=0 (ABA−A)z=0。那么就能判定 A B A − A = O ABA-A=O ABA−A=O,即 A B A = A ABA=A ABA=A。
(1) ⇐ \Leftarrow ⇐(2): ∀ y ∈ F m \forall{y}\in{F^m} ∀y∈Fm,若线性方程组 A x = y Ax=y Ax=y有解,设 x 0 x_0 x0是它的一个解,则有 y = A x 0 y=Ax_0 y=Ax0。若 A B A = A ABA=A ABA=A,则 A B y = A B A x 0 = A x 0 = y ABy=ABAx_0=Ax_0=y ABy=ABAx0=Ax0=y,所以 x = B y x=By x=By也是它的一个解。于是命题(1)成立。
上述定理说明,我们期望找到的矩阵 B B B其实就是满足 A B A = A ABA=A ABA=A的矩阵 B B B,我们把满足该条件的矩阵B称为A的一个广义逆矩阵,更确切地,B称为A的一个{1}逆(还有其他类型的广义逆矩阵,见后文):
- 定义:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,若存在 B ∈ F n × m B\in F^{n\times m} B∈Fn×m,满足 A B A = A ABA=A ABA=A,则称 B B B是 A A A的一个{1}逆,记作 B = A ( 1 ) B=A^{(1)} B=A(1)。通常,将A的全体{1}逆的集合写作 A { 1 } A\{1\} A{1}。
定理3只是告诉我们 B B B应该满足什么条件,没告诉我们 B B B是否存在。下面的定理对此作出了肯定的回答:
- 定理4:设 A ∈ F r m × n A\in{}F^{m\times{n}}_r A∈Frm×n。若 r = 0 r=0 r=0,则 A { 1 } = F n × m A\{1\}=F^{n\times{m}} A{1}=Fn×m;若 r > 0 r\gt{0} r>0,根据秩标准形定理知存在可逆矩阵 P P P、 Q Q Q使得 P A Q = [ I r O O O ] PAQ=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} PAQ=[IrOOO],此时我们断言
A { 1 } = { Q [ I r L 12 L 21 L 22 ] P | L 12 ∈ F r × ( m − r ) , L 21 ∈ F ( n − r ) × r , L 22 ∈ F ( n − r ) × ( m − r ) } A\{1\}=\left\{Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P\middle|L_{12}\in{F^{r\times{(m-r)}}},L_{21}\in{F^{(n-r)\times{r}}},L_{22}\in{F^{(n-r)\times{}(m-r)}}\right\} A{1}={Q[IrL21L12L22]P∣∣∣∣L12∈Fr×(m−r),L21∈F(n−r)×r,L22∈F(n−r)×(m−r)}
证明:只证 r > 0 r\gt{0} r>0的情况。由于 A = P − 1 [ I r O O O ] Q − 1 A=P^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}Q^{-1} A=P−1[IrOOO]Q−1,任取 X = Q [ I r L 12 L 21 L 22 ] P X=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P X=Q[IrL21L12L22]P,计算可得 A X A = A AXA=A AXA=A,故 X ∈ A { 1 } X\in{A\{1\}} X∈A{1}。任取 A ( 1 ) ∈ A { 1 } A^{(1)}\in{A\{1\}} A(1)∈A{1},设 Q − 1 A ( 1 ) P − 1 = [ L 11 L 12 L 21 L 22 ] Q^{-1}A^{(1)}P^{-1}=\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix} Q−1A(1)P−1=[L11L21L12L22],则 A ( 1 ) = Q [ L 11 L 12 L 21 L 22 ] P A^{(1)}=Q\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}P A(1)=Q[L11L21L12L22]P,由 A A ( 1 ) A = A AA^{(1)}A=A AA(1)A=A可得 [ I r O O O ] [ L 11 L 12 L 21 L 22 ] [ I r O O O ] = [ I r O O O ] \begin{bmatrix}I_r&O\\O&O\end{bmatrix}\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} [IrOOO][L11L21L12L22][IrOOO]=[IrOOO],进一步计算有 L 11 = I r L_{11}=I_r L11=Ir,即 A ( 1 ) = Q [ I r L 12 L 21 L 22 ] P A^{(1)}=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P A(1)=Q[IrL21L12L22]P。得证。
上述定理不仅证明了任意矩阵都有{1}逆,还给出了{1}逆的求法。对A进行初等变换化为等价标准形(秩标准形),求出变换对应的可逆矩阵P、Q,就可以得到 A { 1 } A\{1\} A{1}。
- 推论:设 A ∈ F r m × n A\in{}F^{m\times{n}}_r A∈Frm×n,则A的{1}逆唯一的充要条件为 r = m = n r=m=n r=m=n
证:
定理4告诉我们 A A A的{1}逆都具有 Q [ I r L 12 L 21 L 22 ] P Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P Q[IrL21L12L22]P这种形式,其中 P P P、 Q Q Q可逆。要使 A A A的{1}逆唯一,必须使自由变量 L 12 、 L 21 、 L 22 L_{12}、L_{21}、L_{22} L12、L21、L22消失,显然只有 r = m = n r=m=n r=m=n才能做到这一点。
【注】当A的{1}逆唯一时,A的{1}逆为 Q P QP QP。根据式 P A Q = I PAQ=I PAQ=I可得 A − 1 = ( P − 1 Q − 1 ) − 1 = Q P A^{-1}=(P^{-1}Q^{-1})^{-1}=QP A−1=(P−1Q−1)−1=QP,因此A的{1}逆就是 A − 1 A^{-1} A−1。
回到求解线性方程组的问题上来。我们已经知道任取A的一个{1}逆 A ( 1 ) A^{(1)} A(1), 若 A x = y Ax=y Ax=y有解,则 x = A ( 1 ) y x=A^{(1)}y x=A(1)y一定是它的一个解(定理3)。那什么条件下 A x = y Ax=y Ax=y才有解?它的通解又是什么?(这里“通解”是指要能够表达出 A x = y Ax=y Ax=y的所有解)
如果我们将 x = A ( 1 ) y x=A^{(1)}y x=A(1)y代入原方程,就得到 A A ( 1 ) y = y AA^{(1)}y=y AA(1)y=y,这是在原方程有解的条件下得到的结论。然而,如果 A A ( 1 ) y = y AA^{(1)}y=y AA(1)y=y,这不就说明 x = A ( 1 ) y x=A^{(1)}y x=A(1)y是原方程的一个解吗?这就得到了线性方程组有解的充要条件。
- 定理5:线性方程组 A x = y Ax=y Ax=y有解的充要条件是存在A的一个{1}逆 A ( 1 ) A^{(1)} A(1)使得 A A ( 1 ) y = y AA^{(1)}y=y AA(1)y=y
证明:
必要性:若 A x = y Ax=y Ax=y有解,则 y = A x = A A ( 1 ) A x = A A ( 1 ) y y=Ax=AA^{(1)}Ax=AA^{(1)}y y=Ax=AA(1)Ax=AA(1)y。
充分性:若 A A ( 1 ) y = y AA^{(1)}y=y AA(1)y=y,则 x = A ( 1 ) y x=A^{(1)}y x=A(1)y是原方程的一个解,故原方程有解。
- 定理6:线性方程组 A x = y Ax=y Ax=y有解的充要条件是任意A的一个{1}逆 A ( 1 ) A^{(1)} A(1)都有 A A ( 1 ) y = y AA^{(1)}y=y AA(1)y=y
证明:同上。
关于 A x = y Ax=y Ax=y的通解,有以下结论。(这里“通解”是指要能够表达出 A x = y Ax=y Ax=y的所有解)
- 定理7:若 A x = y Ax=y Ax=y有解,则任取A的一个{1}逆 A ( 1 ) A^{(1)} A(1), x = A ( 1 ) y + ( I − A ( 1 ) A ) z , z ∈ F n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n} x=A(1)y+(I−A(1)A)z,z∈Fn都是 A x = y Ax=y Ax=y的通解
证明:
将 x = A ( 1 ) y + ( I − A ( 1 ) A ) z , z ∈ F n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n} x=A(1)y+(I−A(1)A)z,z∈Fn代入原方程,可得 A x = A A ( 1 ) y + A ( I − A ( 1 ) A ) z = y + ( A − A A ( 1 ) A ) z = y Ax=AA^{(1)}y+A(I-A^{(1)}A)z=y+(A-AA^{(1)}A)z=y Ax=AA(1)y+A(I−A(1)A)z=y+(A−AA(1)A)z=y,可见 x = A ( 1 ) y + ( I − A ( 1 ) A ) z , z ∈ F n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n} x=A(1)y+(I−A(1)A)z,z∈Fn都是原方程的解。
任取原方程的一个解 x 0 x_0 x0,有 A x 0 = y Ax_0=y Ax0=y成立。令 z = x 0 z=x_0 z=x0,则 x = A ( 1 ) y + ( I − A ( 1 ) A ) z = A ( 1 ) y + ( I − A ( 1 ) A ) x 0 = x 0 + A ( 1 ) y − A ( 1 ) y = x 0 \begin{aligned}x&=A^{(1)}y+(I-A^{(1)}A)z\\&=A^{(1)}y+(I-A^{(1)}A)x_0\\&=x_0+A^{(1)}y-A^{(1)}y\\&=x_0\end{aligned} x=A(1)y+(I−A(1)A)z=A(1)y+(I−A(1)A)x0=x0+A(1)y−A(1)y=x0可见 x = A ( 1 ) y + ( I − A ( 1 ) A ) z , z ∈ F n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n} x=A(1)y+(I−A(1)A)z,z∈Fn还包含了原方程的所有解。得证。
上述定理说明,A的任意一个{1}逆都能完整表达出 A x = y Ax=y Ax=y的所有解,这意味着{1}逆是解线性方程组的一个完备的工具。通解的形式 x = A ( 1 ) y + ( I − A ( 1 ) A ) z , z ∈ F n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n} x=A(1)y+(I−A(1)A)z,z∈Fn不光可以用来求出方程组的解(只要按照定理4的方法求出一个 A A A的一个 { 1 } \{1\} {1}逆即可),还说明了 A x = y Ax=y Ax=y的解的结构是什么样子的。通解中的第一项 A ( 1 ) y A^{(1)}y A(1)y,是 A x = y Ax=y Ax=y的一个特解。第二项 ( I − A ( 1 ) A ) z (I-A^{(1)}A)z (I−A(1)A)z, z ∈ F n z\in{F^n} z∈Fn,实际上是齐次线性方程组 A x = 0 Ax=0 Ax=0的通解(对 A x = 0 Ax=0 Ax=0应用一下定理7即知)。这就回到了我们学习线性代数时熟悉的结论:非齐次方程的通解=非齐次方程的特解+对应齐次方程的通解。此外,根据列空间和零空间的定义,这也说明了 R ( I − A ( 1 ) A ) = N ( A ) R(I-A^{(1)}A)=N(A) R(I−A(1)A)=N(A)成立。
原本到这里问题就已经结束了,但其实还有个疑问,细心的朋友可能已经发现,既然A的任意一个(而不仅仅是某一个){1}逆都能表达出 A x = y Ax=y Ax=y的所有解,那么这里必然蕴含着某些等量关系在里面。例如,如果我们取 A A A的两个不同的{1}逆 A 1 A_1 A1和 A 2 A_2 A2,并且取一 z 0 ∈ F n z_0\in F^n z0∈Fn,那么我们知道 x 0 = A 1 y + ( I − A 1 A ) z 0 x_0=A_1y+(I-A_1A)z_0 x0=A1y+(I−A1A)z0是 A x = y Ax=y Ax=y的一个解(如果这个方程组有解的话),而且我们可以断定 A 2 A_2 A2也能表达出这个解,即一定存在某个 z 1 ∈ F n z_1\in F^n z1∈Fn使得 x 0 = A 2 y + ( I − A 2 A ) z 1 x_0=A_2y+(I-A_2A)z_1 x0=A2y+(I−A2A)z1。这就有 A 1 y + ( I − A 1 A ) z 0 = A 2 y + ( I − A 2 A ) z 1 A_1y+(I-A_1A)z_0=A_2y+(I-A_2A)z_1 A1y+(I−A1A)z0=A2y+(I−A2A)z1成立了。如果我们取的 z 0 z_0 z0恰好是零向量,那么就有 A 1 y = A 2 y + ( I − A 2 A ) z 1 A_1y=A_2y+(I-A_2A)z_1 A1y=A2y+(I−A2A)z1。如果我们把 A 1 A_1 A1换成别的{1}逆,那么我们也能得到类似这样的关系。
我们发现,给定 A A A的一个{1}逆 G G G,集合 S = { A ( 1 ) y ∣ A ( 1 ) ∈ A { 1 } } S=\{A^{(1)}y|A^{(1)}\in A\{1\}\} S={A(1)y∣A(1)∈A{1}}中的任一向量都可以被 G G G表达出来,即存在 z ∈ F n z\in F^n z∈Fn使 A ( 1 ) y = G y + ( I − G A ) z A^{(1)}y=Gy+(I-GA)z A(1)y=Gy+(I−GA)z成立,而 S S S中的向量不是别的,就是 A x = y Ax=y Ax=y的解。如果可以被 G G G表达出来的向量都在 S S S里面呢?那不就意味着 S S S就是 A x = y Ax=y Ax=y的解集, x = A ( 1 ) y , A ( 1 ) ∈ A { 1 } x=A^{(1)}y,A^{(1)}\in A\{1\} x=A(1)y,A(1)∈A{1}是 A x = y Ax=y Ax=y的通解吗?
当 y = 0 y=0 y=0时, S = { 0 } S=\{0\} S={0},此时只有当A列满秩(即 A x = 0 Ax=0 Ax=0只有零解时), S S S才包含 A x = y Ax=y Ax=y的所有解。那么当 y ≠ 0 y\neq0 y=0时呢?在解决这个问题之前,我们先将{1}逆这个工具运用到更一般的矩阵方程上。
- 定理8:关于 X m × n X_{m\times{n}} Xm×n的矩阵方程 A X B = D AXB=D AXB=D有解的充要条件为,存在(或任意)A的一个{1}逆 A ( 1 ) A^{(1)} A(1)和B的一个{1}逆 B ( 1 ) B^{(1)} B(1)满足 D = A A ( 1 ) D B ( 1 ) B D=AA^{(1)}DB^{(1)}B D=AA(1)DB(1)B;任意给定A的一个{1}逆 A ( 1 ) A^{(1)} A(1)和B的一个{1}逆 B ( 1 ) B^{(1)} B(1),若 A X B = D AXB=D AXB=D有解,则其通解为 X = A ( 1 ) D B ( 1 ) + Y − A ( 1 ) A Y B B ( 1 ) , Y ∈ F m × n X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)},Y\in{F^{m\times{n}}} X=A(1)DB(1)+Y−A(1)AYBB(1),Y∈Fm×n
证明:
若 A X B = D AXB=D AXB=D有解,则 D = A X B = A A ( 1 ) A X B B ( 1 ) B = A A ( 1 ) D B ( 1 ) B D=AXB=AA^{(1)}AXBB^{(1)}B=AA^{(1)}DB^{(1)}B D=AXB=AA(1)AXBB(1)B=AA(1)DB(1)B若 D = A A ( 1 ) D B ( 1 ) B D=AA^{(1)}DB^{(1)}B D=AA(1)DB(1)B,则 X = A ( 1 ) D B ( 1 ) X=A^{(1)}DB^{(1)} X=A(1)DB(1)是原方程的一个解。
将 X = A ( 1 ) D B ( 1 ) + Y − A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} X=A(1)DB(1)+Y−A(1)AYBB(1)代入原方程得 A X B = A A ( 1 ) D B ( 1 ) B + A Y B − A A ( 1 ) A Y B B ( 1 ) B = D + A Y B − A Y B = D \begin{aligned}AXB&=AA^{(1)}DB^{(1)}B+AYB-AA^{(1)}AYBB^{(1)}B\\&=D+AYB-AYB\\&=D\end{aligned} AXB=AA(1)DB(1)B+AYB−AA(1)AYBB(1)B=D+AYB−AYB=D故 X = A ( 1 ) D B ( 1 ) + Y − A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} X=A(1)DB(1)+Y−A(1)AYBB(1)都是原方程的解。
任取原方程的一个解 X 0 X_0 X0,则 A X 0 B = D AX_0B=D AX0B=D,令 Y = X 0 Y=X_0 Y=X0,则 X = A ( 1 ) D B ( 1 ) + Y − A ( 1 ) A Y B B ( 1 ) = A ( 1 ) D B ( 1 ) + X 0 − A ( 1 ) A X 0 B B ( 1 ) = X 0 + A ( 1 ) D B { 1 } − A ( 1 ) D B ( 1 ) = X 0 \begin{aligned}X&=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}\\&=A^{(1)}DB^{(1)}+X_0-A^{(1)}AX_0BB^{(1)}\\&=X_0+A^{(1)}DB^{\{1\}}-A^{(1)}DB^{(1)}\\&=X_0\end{aligned} X=A(1)DB(1)+Y−A(1)AYBB(1)=A(1)DB(1)+X0−A(1)AX0BB(1)=X0+A(1)DB{1}−A(1)DB(1)=X0故 X = A ( 1 ) D B ( 1 ) + Y − A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} X=A(1)DB(1)+Y−A(1)AYBB(1)还包含了原方程的所有解。得证。
现在,我们考虑关于M的矩阵方程 A M A = A AMA=A AMA=A,解该方程,得到如下结论:
- 定理9:给定 A m × n A_{m\times{n}} Am×n的一个{1}逆 G G G,则式 M = G + Y − G A Y A G , Y ∈ F m × n M=G+Y-GAYAG,Y\in{F^{m\times{n}}} M=G+Y−GAYAG,Y∈Fm×n给出了A的全部{1}逆
证明:解方程 A M A = A AMA=A AMA=A,可得通解 M = G A G + Z − G A Z A G , Z ∈ F m × n M=GAG+Z-GAZAG,Z\in{F^{m\times{n}}} M=GAG+Z−GAZAG,Z∈Fm×n作变量代换 Y = Z − G Y=Z-G Y=Z−G,得 M = G A G + Y + G − G A Y A G − G A G A G = G + Y + G A G − G A G − G A Y A G = G + Y − G A Y A G , Y ∈ F m × n \begin{aligned}M&=GAG+Y+G-GAYAG-GAGAG\\&=G+Y+GAG-GAG-GAYAG\\&=G+Y-GAYAG,Y\in{F^{m\times{n}}}\end{aligned} M=GAG+Y+G−GAYAG−GAGAG=G+Y+GAG−GAG−GAYAG=G+Y−GAYAG,Y∈Fm×n得证。
这说明A的所有{1}逆都可以用A的某个给定的{1}逆表达出来。现在回到问题:集合 { M y ∣ M ∈ A { 1 } } \{My|M\in{A\{1\}}\} {My∣M∈A{1}}是否包含了 A x = y Ax=y Ax=y的所有解?有了上面的结论的铺垫,我们现在可以解决这个问题:
- 定理10:若 A x = y , y ≠ 0 Ax=y,y\neq0 Ax=y,y=0有解,则其通解是 x = M y , M ∈ A { 1 } x=My,M\in{A\{1\}} x=My,M∈A{1}
证明:
设G是A的一个{1}逆,则由 A x = y Ax=y Ax=y有解知 A G y = y AGy=y AGy=y,且原方程的通解是 x = G y + ( I − G A ) z x=Gy+(I-GA)z x=Gy+(I−GA)z。设M是A的任意一个{1}逆,则存在矩阵Y,使得 M = G + Y − G A Y A G M=G+Y-GAYAG M=G+Y−GAYAG。问题转化为,对任意 z ∈ F n z\in{F^n} z∈Fn,能否找到Y,使得 G y + ( I − G A ) z = M y = G y + Y y − G A Y A G y = G y + ( I − G A ) Y y \begin{aligned}Gy+(I-GA)z&=My\\&=Gy+Yy-GAYAGy\\&=Gy+(I-GA)Yy\end{aligned} Gy+(I−GA)z=My=Gy+Yy−GAYAGy=Gy+(I−GA)Yy成立。即是否存在Y使得 ( I − G A ) ( Y y − z ) = 0 (I-GA)(Yy-z)=0 (I−GA)(Yy−z)=0。显然,只要找到Y满足 Y y = z Yy=z Yy=z即可。因为 y ≠ 0 y\neq0 y=0,故容易验证 y ( 1 ) = ( y H y ) − 1 y H y^{(1)}=(y^Hy)^{-1}y^H y(1)=(yHy)−1yH是y的一个{1}逆,且满足 y ( 1 ) y = 1 y^{(1)}y=1 y(1)y=1。因为 z y ( 1 ) y = z zy^{(1)}y=z zy(1)y=z,故关于Y的矩阵方程 Y y = z Yy=z Yy=z有解,且 Y = z y ( 1 ) Y=zy^{(1)} Y=zy(1)就是它的一个解。综上,找到了Y,即找到了M使得 M y = G y + ( I − G A ) z My=Gy+(I-GA)z My=Gy+(I−GA)z,得证。
实际上,证明可以大大简化:设 x 0 x_0 x0是 A x = y , y ≠ 0 Ax=y,y\neq 0 Ax=y,y=0的一个解,G是A的一个{1}逆,则有 x 0 = G y + ( I − G A ) x 0 = G y + ( I − G A ) x 0 y ( 1 ) y = ( G + ( I − G A ) x 0 y ( 1 ) ) y \begin{aligned}x_0&=Gy+(I-GA)x_0\\&=Gy+(I-GA)x_0y^{(1)}y\\&=(G+(I-GA)x_0y^{(1)})y\end{aligned} x0=Gy+(I−GA)x0=Gy+(I−GA)x0y(1)y=(G+(I−GA)x0y(1))y其中, y ( 1 ) = ( y H y ) − 1 y H y^{(1)}=(y^Hy)^{-1}y^H y(1)=(yHy)−1yH。根据{1}逆的定义可以验证 G + ( I − G A ) x 0 y ( 1 ) G+(I-GA)x_0y^{(1)} G+(I−GA)x0y(1)是A的一个{1}逆,这就说明 A x = y Ax=y Ax=y的解都具备 x = M y , M ∈ A { 1 } x=My,M\in{A\{1\}} x=My,M∈A{1}这种形式。而将 x = M y , M ∈ A { 1 } x=My,M\in{A\{1\}} x=My,M∈A{1}代入 A x = y Ax=y Ax=y发现等式依然成立。故定理得证。
在机器学习中,线性回归模型是最基础也最简单的模型之一,在对实际数据进行拟合时,往往是不可能做到完全拟合的。故对于一般的线性回归问题,我们往往考虑其最小二乘解(或者完全等价地,最小化线性回归的代价函数,即均方误差函数)。而且我们通常不希望解的范数太大,故还需考虑其极小范数解(注意,解的范数可以直接约束解向量的每个分量的取值范围,例如从Frobenius范数的角度考虑, ∀ x ∈ C n , ∣ x i ∣ ⩽ ∣ ∣ x ∣ ∣ 2 \forall x\in C^n,|x_i|\leqslant ||x||_2 ∀x∈Cn,∣xi∣⩽∣∣x∣∣2)。有了定理10的结论,我们在寻找这些特殊解时,就可以把目标定在寻找特殊的{1}逆上。那么都有哪些特殊的{1}逆呢?当然要先揪出{1}逆中的“老大”——PM逆,这样我们后面的问题就好解决了。
Penrose-Moore广义逆
Penrose于1955年提出了Penrose-Moore条件,满足这些条件中的任何一个的矩阵G都可以称为A的一个广义逆矩阵,它们分别是:
- AGA=A
- GAG=G
- AG是共轭对称的
- GA是共轭对称的
{1}逆是满足条件1的广义逆矩阵,这也是{1}逆的记法的来源。如果某一类广义逆满足上述的某些条件,那么就把这一类广义逆称作“ { 满 足 的 条 件 的 标 号 } \{满足的条件的标号\} {满足的条件的标号}逆”。例如满足条件1、2的叫做{1,2}逆,满足条件1、3、4的叫做{1,3,4}逆等等。共有 2 4 − 1 = 15 2^4-1=15 24−1=15类广义逆矩阵,其中得到重要应用的有{1,2}逆(自反广义逆矩阵)、{1,2,3}逆(正规化广义逆矩阵)、{1,2,4}逆(弱广义逆矩阵)、{1,2,3,4}逆(Penrose-Moore广义逆)等,当然还有后文会用到的{1,3}逆和{1,4}逆。
定义:设 A ∈ F m × n A\in{F^{m\times{n}}} A∈Fm×n, G ∈ F n × m G\in{F^{n\times{m}}} G∈Fn×m,若G满足如下四个条件,则称G是A的Penrose-Moore广义逆矩阵,简称PM逆,记为 G = A + G=A^+ G=A+:
- A G A = A AGA=A AGA=A
- G A G = G GAG=G GAG=G
- ( A G ) H = A G (AG)^H=AG (AG)H=AG
- ( G A ) H = G A (GA)^H=GA (GA)H=GA
PM逆不仅在数学规划中有着重要的应用,还在概率统计、数值分析、系统控制、博弈论、信号处理和网络理论等领域有着广泛的应用。这是因为PM逆具有着非常优良的数学性质,使得其在各个领域的理论分析中占有着重要的地位。现在,我们就来看看PM逆都有哪些优良的性质。
PM逆的存在性与唯一性:
- 定理11:任意 A ∈ F r m × n A\in{F^{m\times{n}}_r} A∈Frm×n, A A A的PM逆是存在且唯一的
证明:
存在性:当 r = 0 r=0 r=0时,易验证 O n × m O_{n\times{m}} On×m是A的一个PM逆。
当 r > 0 r\gt{0} r>0时,存在A的满秩分解 A = K L A=KL A=KL,其中 K ∈ F m × r K\in{F^{m\times{r}}} K∈Fm×r是列满秩矩阵, L ∈ F r × n L\in{F^{r\times{n}}} L∈Fr×n是行满秩矩阵。由于 r ( K H K ) = r ( K ) = r r(K^HK)=r(K)=r r(KHK)=r(K)=r以及 r ( L L H ) = r ( L ) = r r(LL^H)=r(L)=r r(LLH)=r(L)=r,故 K H K K^HK KHK和 L L H LL^H LLH是满秩方阵。故 K H K L L H K^HKLL^H KHKLLH是可逆方阵。设 G = L H ( K H K L L H ) − 1 K H G=L^H(K^HKLL^H)^{-1}K^H G=LH(KHKLLH)−1KH,现在证明G是A的一个PM逆:
A G A = K L L H ( K H K L L H ) − 1 K H K L = K ( L L H ) ( L L H ) − 1 ( K H K ) − 1 ( K H K ) L = K L = A \begin{aligned}AGA&=KLL^H(K^HKLL^H)^{-1}K^HKL\\&=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}(K^HK)L\\&=KL\\&=A\end{aligned} AGA=KLLH(KHKLLH)−1KHKL=K(LLH)(LLH)−1(KHK)−1(KHK)L=KL=A G A G = L H ( K H K L L H ) − 1 K H K L L H ( K H K L L H ) − 1 K H = L H ( L L H ) − 1 ( K H K ) − 1 ( K H K ) ( L L H ) ( L L H ) − 1 ( K H K ) − 1 K H = L H ( K H K L L H ) − 1 K H = G \begin{aligned}GAG&=L^H(K^HKLL^H)^{-1}K^HKLL^H(K^HKLL^H)^{-1}K^H\\&=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H\\&=L^H(K^HKLL^H)^{-1}K^H\\&=G\end{aligned} GAG=LH(KHKLLH)−1KHKLLH(KHKLLH)−1KH=LH(LLH)−1(KHK)−1(KHK)(LLH)(LLH)−1(KHK)−1KH=LH(KHKLLH)−1KH=G G A = L H ( K H K L L H ) − 1 K H K L = L H ( L L H ) − 1 ( K H K ) − 1 ( K H K ) L = L H ( L L H ) − 1 L \begin{aligned}GA&=L^H(K^HKLL^H)^{-1}K^HKL\\&=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)L\\&=L^H(LL^H)^{-1}L\end{aligned} GA=LH(KHKLLH)−1KHKL=LH(LLH)−1(KHK)−1(KHK)L=LH(LLH)−1L ( G A ) H = L H ( ( L L H ) − 1 ) H L = L H ( L L H ) − 1 L = G A (GA)^H=L^H((LL^H)^{-1})^HL=L^H(LL^H)^{-1}L=GA (GA)H=LH((LLH)−1)HL=LH(LLH)−1L=GA A G = K L L H ( K H K L L H ) − 1 K H = K ( L L H ) ( L L H ) − 1 ( K H K ) − 1 K H = K ( K H K ) − 1 K H \begin{aligned}AG&=KLL^H(K^HKLL^H)^{-1}K^H\\&=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H\\&=K(K^HK)^{-1}K^H\end{aligned} AG=KLLH(KHKLLH)−1KH=K(LLH)(LLH)−1(KHK)−1KH=K(KHK)−1KH ( A G ) H = K ( ( K H K ) − 1 ) H K H = K ( K H K ) − 1 K H = A G (AG)^H=K((K^HK)^{-1})^HK^H=K(K^HK)^{-1}K^H=AG (AG)H=K((KHK)−1)HKH=K(KHK)−1KH=AG这就证明了A的PM逆的存在性。
唯一性:设 X , Y X,Y X,Y分别是A的一个PM逆,则 X = X A X = ( X A ) H X = A H X H X = ( A Y A ) H X H X = A H Y H A H X H X = ( Y A ) H ( X A ) H X = Y A X A X = Y A X = Y ( A X ) H = Y X H A H = Y X H ( A Y A ) H = Y X H A H Y H A H = Y ( A X ) H ( A Y ) H = Y A X A Y = Y A Y = Y X=XAX=(XA)^HX=A^HX^HX=(AYA)^HX^HX\\=A^HY^HA^HX^HX=(YA)^H(XA)^HX=YAXAX\\=YAX=Y(AX)^H=YX^HA^H\\=YX^H(AYA)^H=YX^HA^HY^HA^H\\=Y(AX)^H(AY)^H=YAXAY=YAY=Y X=XAX=(XA)HX=AHXHX=(AYA)HXHX=AHYHAHXHX=(YA)H(XA)HX=YAXAX=YAX=Y(AX)H=YXHAH=YXH(AYA)H=YXHAHYHAH=Y(AX)H(AY)H=YAXAY=YAY=Y这就证明了PM逆的唯一性。得证。
【注】唯一性的证明可以说比较“辣眼睛”,但证明过程实际上是灵活地运用Penrose的四个条件,证明 X = Y X=Y X=Y的关键步骤是先得到 X = Y A X X=YAX X=YAX,再证明 Y A X = Y YAX=Y YAX=Y。建议读者自己推导,便于理解。
该定理不仅证明了PM逆的存在性和唯一性,还给出了求PM逆的一种求法:满秩分解法。
PM逆的秩的性质:
- 定理12: r ( A ) = r ( A + ) = r ( A A + ) = r ( A + A ) = r ( A A + A ) = r ( A + A A + ) r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+) r(A)=r(A+)=r(AA+)=r(A+A)=r(AA+A)=r(A+AA+)
证明:(不断利用秩不等式 r ( A B ) ⩽ min { r ( A ) , r ( B ) } r(AB)\leqslant \min\{r(A),r(B)\} r(AB)⩽min{r(A),r(B)})
因为 r ( A ) = r ( A A + A ) ⩽ r ( A A + ) ⩽ r ( A + ) r(A)=r(AA^+A)\leqslant{}r(AA^+)\leqslant{r(A^+)} r(A)=r(AA+A)⩽r(AA+)⩽r(A+) r ( A + ) = r ( A + A A + ) ⩽ r ( A + A ) ⩽ r ( A ) r(A^+)=r(A^+AA^+)\leqslant{}r(A^+A)\leqslant{}r(A) r(A+)=r(A+AA+)⩽r(A+A)⩽r(A) r ( A A + ) ⩽ r ( A ) r(AA^+)\leqslant{}r(A) r(AA+)⩽r(A) r ( A + A ) ⩽ r ( A + ) r(A^+A)\leqslant{}r(A^+) r(A+A)⩽r(A+)所以 r ( A ) = r ( A + ) = r ( A A + ) = r ( A + A ) = r ( A A + A ) = r ( A + A A + ) r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+) r(A)=r(A+)=r(AA+)=r(A+A)=r(AA+A)=r(A+AA+)得证。
【推论】
根据列空间的定义,有 R ( A A + ) ⊆ R ( A ) R(AA^+)\subseteq R(A) R(AA+)⊆R(A),而 r ( A ) = r ( A A + ) r(A)=r(AA^+) r(A)=r(AA+)告诉我们 dim R ( A ) = dim R ( A A + ) \dim R(A)=\dim R(AA^+) dimR(A)=dimR(AA+),因此我们有 R ( A A + ) = R ( A ) R(AA^+)=R(A) R(AA+)=R(A)。同理分析,根据 r ( A + ) = r ( A + A ) r(A^+)=r(A^+A) r(A+)=r(A+A)可以得到 R ( A + A ) = R ( A + ) R(A^+A)=R(A^+) R(A+A)=R(A+)。
PM逆有以下列出的一些计算性质(用PM的定义容易验证):
- ( A + ) + = A (A^+)^+=A (A+)+=A
- ( A T ) + = ( A + ) T (A^T)^+=(A^+)^T (AT)+=(A+)T
- ( A H ) + = ( A + ) H (A^H)^+=(A^+)^H (AH)+=(A+)H
- ( k A ) + = 1 k A + , k ∈ F , k ≠ 0 (kA)^+=\frac{1}{k}A^+,k\in{F},k\neq0 (kA)+=k1A+,k∈F,k=0
- 若A是n阶 ( n ⩾ 2 ) (n\geqslant{2}) (n⩾2)方阵,则 ( A ∗ ) + = ( A + ) ∗ (A^*)^+=(A^+)^* (A∗)+=(A+)∗,其中 A ∗ A^* A∗是A的伴随矩阵
- 一般 ( A B ) + ≠ B + A + (AB)^+\neq{}B^+A^+ (AB)+=B+A+,但是 ( A H A ) + = A + ( A H ) + (A^HA)^+=A^+(A^H)^+ (AHA)+=A+(AH)+且 ( A A H ) + = ( A H ) + A + (AA^H)^+=(A^H)^+A^+ (AAH)+=(AH)+A+
- ( A + A ) + = A + A (A^+A)^+=A^+A (A+A)+=A+A, ( A A + ) + = A A + (AA^+)^+=AA^+ (AA+)+=AA+
- ( I − A + A ) + = I − A + A (I-A^+A)^+=I-A^+A (I−A+A)+=I−A+A, ( I − A A + ) + = I − A A + (I-AA^+)^+=I-AA^+ (I−AA+)+=I−AA+
- 若U、V为酋矩阵,则 ( U A V ) + = V H A + U H (UAV)^+=V^HA^+U^H (UAV)+=VHA+UH
从PM逆的特性上看,PM逆可能是最接近逆矩阵的广义逆了(唯一性、秩的关系、计算性质等)。当方阵A可逆时,容易验证 A + A^+ A+就是A的逆矩阵。此外,如果对矩阵 A A A作一些限定,会发现 A + A^+ A+有个性质比较接近逆矩阵的定义:
(注意, A A A不一定是方阵)
- 定理13:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,则 A + A = I n A^+A=I_n A+A=In的充要条件为 A A A列满秩
证明:(利用定理12的结论)
必要性:若 A + A = I A^+A=I A+A=I,则由 r ( A ) = r ( A + A ) = n r(A)=r(A^+A)=n r(A)=r(A+A)=n知A是列满秩矩阵
充分性:若A是列满秩矩阵,则由 r ( A + A ) = r ( A ) = n r(A^+A)=r(A)=n r(A+A)=r(A)=n知 A + A A^+A A+A是满秩方阵,用 ( A + A ) − 1 (A^+A)^{-1} (A+A)−1左乘 A + A A + A = A + A A^+AA^+A=A^+A A+AA+A=A+A,即得 A + A = I A^+A=I A+A=I
【注】前面提到过,当A列满秩时,A的左逆矩阵存在,左伪逆 L = ( A H A ) − 1 A H L=(A^HA)^{-1}A^H L=(AHA)−1AH是A的一个左逆矩阵。容易验证 L L L就是 A A A的PM逆。
- 定理14: A A + = I m AA^+=I_m AA+=Im的充要条件为 A m × n A_{m\times{n}} Am×n是行满秩矩阵
证明:与上同理。
【注】前面提到过,当A行满秩时,A的右逆矩阵存在,右伪逆 R = A H ( A A H ) − 1 R=A^H(AA^H)^{-1} R=AH(AAH)−1是A的一个右逆矩阵。容易验证 R R R就是 A A A的PM逆。
PM逆作为一种特殊的{1}逆,当然可以像{1}逆那样表达线性方程组的解的结构:
- 定理15:线性方程 A m × n x = y A_{m\times{n}}x=y Am×nx=y有解的充要条件为 y = A A + y y=AA^+y y=AA+y,若它有解,则通解为 x = A + y + ( I − A + A ) z , z ∈ F n x=A^+y+(I-A^+A)z,z\in{F^n} x=A+y+(I−A+A)z,z∈Fn
证明:
若 y = A A + y y=AA^+y y=AA+y,即存在A的一个 { 1 } \{1\} {1}逆使得 y = A A ( 1 ) y y=AA^{(1)}y y=AA(1)y,则由定理5知原方程有解;若原方程有解,由定理6知对A的任意一个 { 1 } \{1\} {1}逆都有 y = A A ( 1 ) y y=AA^{(1)}y y=AA(1)y成立,自然 y = A A + y y=AA^+y y=AA+y也是成立的。通解式由定理7得到。
【推论】
对齐次线性方程组 A x = 0 Ax=0 Ax=0应用定理15,就有 ( I − A + A ) z , z ∈ F n (I-A^+A)z,z\in F^n (I−A+A)z,z∈Fn是 A x = 0 Ax=0 Ax=0的通解,这意味着 R ( I − A + A ) = N ( A ) R(I-A^+A)=N(A) R(I−A+A)=N(A)。
对齐次线性方程组 ( I − A A + ) x = 0 (I-AA^+)x=0 (I−AA+)x=0应用定理15,有 A A + z , z ∈ F m AA^+z,z\in F^m AA+z,z∈Fm是 ( I − A A + ) x = 0 (I-AA^+)x=0 (I−AA+)x=0的通解,因此 R ( A A + ) = N ( I − A A + ) R(AA^+)=N(I-AA^+) R(AA+)=N(I−AA+)。
- 定理16:关于 X m × n X_{m\times{n}} Xm×n的矩阵方程 A X B = D AXB=D AXB=D有解的充要条件为 D = A A + D B + B D=AA^+DB^+B D=AA+DB+B,若它有解,则通解为 X = A + D B + + Y − A + A Y B B + , Y ∈ F m × n X=A^+DB^++Y-A^+AYBB^+,Y\in{F^{m\times{n}}} X=A+DB++Y−A+AYBB+,Y∈Fm×n
借助PM逆,我们还能解决方程解的唯一性问题:
线性方程组的解的唯一性:
- 定理17:设 A ∈ F m × n A\in F^{m\times n} A∈Fm×n,且线性方程组 A x = y Ax=y Ax=y有解,则解唯一的充要条件为A列满秩
证明:
必要性:考虑方程的通解 x = A + y + ( I − A + A ) z , z ∈ F n x=A^+y+(I-A^+A)z,z\in{F^n} x=A+y+(I−A+A)z,z∈Fn,显然若方程的解唯一,则必有 ∀ z ∈ F n , ( I − A + A ) z = 0 \forall{z}\in{F^n},(I-A^+A)z=0 ∀z∈Fn,(I−A+A)z=0。故由零矩阵的判定条件知 A + A = I A^+A=I A+A=I,根据定理13知A列满秩。
充分性:若A列满秩,则根据定理13有 A + A = I A^+A=I A+A=I,故方程的通解 x = A + y + ( I − A + A ) z = A + y x=A^+y+(I-A^+A)z=A^+y x=A+y+(I−A+A)z=A+y,可见方程的解是唯一的。
【注】根据这个结论,当 A x = y Ax=y Ax=y的解存在且唯一时,A列满秩。结合前面的讨论知道,此时 A + = ( A H A ) − 1 A H A^+=(A^HA)^{-1}A^H A+=(AHA)−1AH,因此 A x = y Ax=y Ax=y的唯一解是 x = A + y = ( A H A ) − 1 A H y x=A^+y=(A^HA)^{-1}A^Hy x=A+y=(AHA)−1AHy。
矩阵方程的解的唯一性:
- 定理18:设关于 X m × n X_{m\times{n}} Xm×n的矩阵方程 A X B = D AXB=D AXB=D有解,则解唯一的充要条件为A列满秩且B行满秩
证明:
必要性:考虑通解 X = A + D B + + Y − A + A Y B B + , Y ∈ F m × n X=A^+DB^++Y-A^+AYBB^+,Y\in{F^{m\times{n}}} X=A+DB++Y−A+AYBB+,Y∈Fm×n,若解唯一,则 ∀ Y ∈ F m × n , Y = A + A Y B B + \forall{Y}\in{F^{m\times{n}}},Y=A^+AYBB^+ ∀Y∈Fm×n,Y=A+AYBB+。下面分情况讨论:
若 m ⩾ n m\geqslant{n} m⩾n,则可取到列满秩的 Y Y Y。由 r ( Y ) = r ( A + A Y B B + ) ⩽ r ( B ) r(Y)=r(A^+AYBB^+)\leqslant{r(B)} r(Y)=r(A+AYBB+)⩽r(B)知, B B B是行满秩的。故 B B + = I BB^+=I BB+=I,进一步 ∀ Y ∈ F m × n , Y = A + A Y \forall{Y}\in{F^{m\times{n}}},Y=A^+AY ∀Y∈Fm×n,Y=A+AY即 ( I − A + A ) Y = O (I-A^+A)Y=O (I−A+A)Y=O。那么 ∀ z ∈ F m , ( I − A + A ) z = 0 \forall{z}\in{F^m},(I-A^+A)z=0 ∀z∈Fm,(I−A+A)z=0。由零矩阵的判定条件得, A + A = I A^+A=I A+A=I,故 A A A列满秩。
若 m ⩽ n m\leqslant{n} m⩽n,则可取到行满秩的Y,由 r ( Y ) = r ( A + A Y B B + ) ⩽ r ( A ) r(Y)=r(A^+AYBB^+)\leqslant{r(A)} r(Y)=r(A+AYBB+)⩽r(A)得,A列满秩。故 A + A = I A^+A=I A+A=I,进一步 ∀ Y ∈ F m × n , Y = Y B B + \forall{Y}\in{F^{m\times{n}}},Y=YBB^+ ∀Y∈Fm×n,Y=YBB+即 Y ( I − B B + ) = O Y(I-BB^+)=O Y(I−BB+)=O。则 ∀ z ∈ F n , z T ( I − B B + ) = 0 \forall{z}\in{F^n},z^T(I-BB^+)=0 ∀z∈Fn,zT(I−BB+)=0。由零矩阵的判定条件得, B B + = I BB^+=I BB+=I,故 B B B行满秩。
综上,无论何种情况,若方程的解唯一,则 A A A列满秩且 B B B行满秩。
充分性:若 A A A列满秩且 B B B行满秩,则 A + A = I A^+A=I A+A=I且 B B + = I BB^+=I BB+=I。故方程的通解 X = A + D B + + Y − A + A Y B B + = A + D B + + Y − Y = A + D B + X=A^+DB^++Y-A^+AYBB^+=A^+DB^++Y-Y=A^+DB^+ X=A+DB++Y−A+AYBB+=A+DB++Y−Y=A+DB+,可见方程的解是唯一的。得证。
【注】根据这个结论,当 A X B = D AXB=D AXB=D的解存在且唯一时,有A列满秩且B行满秩。结合前面的讨论知道,此时 A + = ( A H A ) − 1 A H A^+=(A^HA)^{-1}A^H A+=(AHA)−1AH, B + = B H ( B B H ) − 1 B^+=B^H(BB^H)^{-1} B+=BH(BBH)−1,因此 A X B = D AXB=D AXB=D的唯一解是 x = A + D B + = ( A H A ) − 1 A H D B H ( B B H ) − 1 x=A^+DB^+=(A^HA)^{-1}A^HDB^H(BB^H)^{-1} x=A+DB+=(AHA)−1AHDBH(BBH)−1。
PM逆的列空间与零空间:
- 定理19: N ( A + ) = N ( A H ) N(A^+)=N(A^H) N(A+)=N(AH), R ( ( A H ) + ) = R ( A ) R((A^H)^+)=R(A) R((AH)+)=R(A)
证明:
只需证明 A + x = 0 A^+x=0 A+x=0和 A H x = 0 A^Hx=0 AHx=0是同解方程组即可。前者的通解为 x = ( I − ( A + ) + A + ) z = ( I − A A + ) z x=(I-(A^+)^+A^+)z=(I-AA^+)z x=(I−(A+)+A+)z=(I−AA+)z,后者的通解为 x = ( I − ( A H ) + A H ) z = ( I − ( A A + ) H ) z = ( I − A A + ) z x=(I-(A^H)^+A^H)z=(I-(AA^+)^H)z=(I-AA^+)z x=(I−(AH)+AH)z=(I−(AA+)H)z=(I−AA+)z,可见它们是同解方程组,所以 N ( A + ) = N ( A H ) N(A^+)=N(A^H) N(A+)=N(AH)。进而 N ( A + ) ⊥ = N ( A H ) ⊥ N(A^+)^\bot=N(A^H)^\bot N(A+)⊥=N(AH)⊥,即 R ( ( A H ) + ) = R ( A ) R((A^H)^+)=R(A) R((AH)+)=R(A)。
- 定理20: N ( ( A H ) + ) = N ( A ) N((A^H)^+)=N(A) N((AH)+)=N(A), R ( A + ) = R ( A H ) R(A^+)=R(A^H) R(A+)=R(AH)
证明:与上同理。
我们把定理12的推论、定理15的推论和定理19、定理20放在一起做个总结就是: R ( A ) = R ( ( A H ) + ) = R ( A A + ) = N ( I − A A + ) R ( A + ) = R ( A H ) = R ( A + A ) = N ( I − A + A ) N ( A H ) = N ( A + ) = N ( A A + ) = R ( I − A A + ) N ( ( A H ) + ) = N ( A ) = N ( A + A ) = R ( I − A + A ) R(A)=R((A^H)^+)=R(AA^+)=N(I-AA^+)\\R(A^+)=R(A^H)=R(A^+A)=N(I-A^+A)\\N(A^H)=N(A^+)=N(AA^+)=R(I-AA^+)\\N((A^H)^+)=N(A)=N(A^+A)=R(I-A^+A) R(A)=R((AH)+)=R(AA+)=N(I−AA+)R(A+)=R(AH)=R(A+A)=N(I−A+A)N(AH)=N(A+)=N(AA+)=R(I−AA+)N((AH)+)=N(A)=N(A+A)=R(I−A+A)其中,后面两个式子是前面两个式子取正交补的结果。第二个式子还可以看做是第一个式子将 A A A代之以 A + A^+ A+得到的结果。
至此,关于PM逆如何计算的问题,我们只提到了一种方法:满秩分解法。实际上,求解PM逆还有很多行之有效的方法。这里介绍两例:
-
奇异值分解法:设矩阵 A ∈ C m × n A\in{C^{m\times{n}}} A∈Cm×n,A的奇异值分解为 A = U Σ V H A=U\Sigma{V^H} A=UΣVH,其中U、V均为酋矩阵, Σ \Sigma Σ是广义对角矩阵。则用PM逆的定义验证可得 A + = V Σ + U H A^+=V\Sigma{}^+U^H A+=VΣ+UH。
【注】由于奇异值分解已有成熟的数值稳定性较好的算法,使用计算机求解PM逆时往往就是用奇异值分解法。(奇异值分解可参考链接)
-
Greville递推法
【注】若初始列向量 a 1 = 0 a_1=0 a1=0,图中公式不适用,此时这样计算: a 1 + = a 1 T a_1^+=a_1^T a1+=a1T