清华大学公开课线性代数2——第6讲:伪逆

此博客停止更新,迁移至SnailDove’s blog,查看本文请点击此处,清华大学线性代数2笔记汇总:线性代数总结

笔记源自:清华大学公开课:线性代数2——第6讲:伪逆

**提示:**如果文中图片看不清文字,请右键单击鼠标,选择在新窗口打开图片,然后放大图片(这边上传之前都是可以看清的,由于网页正文部分大小固定,因此图片被自动缩小以便适配网页),截图部分是课堂ppt老师随手的板书。

文章目录

    • 引言
    • 为什么称为伪逆、左逆、右逆
    • 特例
    • Jordan标准形的伪逆
      • Penrose伪逆
    • 伪逆的应用之最小二乘法
      • 引言
      • 最佳最小二乘解的四个基本子空间

引言

本文基础:SVD分解原理

清华大学公开课线性代数2——第6讲:伪逆_第1张图片
矩阵的奇异值分解可以理解成从 R n R^n Rn R m R^m Rm的线性变换在不同基底下矩阵表示,接下来利用矩阵的奇异值分解
来定义矩阵的伪逆,然后再利用矩阵的伪逆来讨论线性方程组Ax=b无解时的最小二乘解,线性代数的中心问题是
求解线性方程组 A x = b Ax=b Ax=b,最简单的情况是如果系数矩阵A是n阶的可逆矩阵,那么这时对于任意的n维向量 b b b,线性方程组 A x = b Ax=b Ax=b有唯一的解,这个解是 A − 1 b A^{-1} b A1b,那这就启发去对于不可逆的矩阵或者是对于 A m × n A_{m\times n} Am×n的矩阵,我们来定义它的一个逆矩阵,那么这时候逆矩阵我们叫做伪逆或者是叫广义逆

##定义

伪逆的定义来自于奇异值分解:
清华大学公开课线性代数2——第6讲:伪逆_第2张图片
(1)若 A A A可逆,即 r = m = n r=m=n r=m=n,则: A − 1 = ( U Σ V T ) − 1 = V Σ − 1 U T = A + A^{-1}=(U\Sigma V^T)^{-1}=V\Sigma^{-1}U^T=A^+ A1=(UΣVT)1=VΣ1UT=A+,注意:由奇异值分解公式 A V = U Σ ,   ( v 1   . . .   v r ) ∈ C ( A T ) ,   ( v r + 1   . . .   v n ) ∈ N ( A ) ,   ( u 1   . . .   u r ) ∈ C ( A ) ,   ( u r + 1   . . .   u m ) ∈ N ( A T ) AV=U\Sigma,\ (v_1\,...\,v_r)\in C(A^T),\ (v_{r+1}\,...\,v_n)\in N(A),\ (u_1\,...\,u_r)\in C(A),\ (u_{r+1}\,...\,u_m)\in N(A^T) AV=UΣ, (v1...vr)C(AT), (vr+1...vn)N(A), (u1...ur)C(A), (ur+1...um)N(AT) 得: A V = U Σ : C ( A T ) → C ( A ) AV=U\Sigma: C(A^T)\rightarrow C(A) AV=UΣ:C(AT)C(A),同理可得: A + U T = V Σ + : C ( A ) → C ( A T ) A^+U^T=V\Sigma^{+}:C(A)\rightarrow C(A^T) A+UT=VΣ+:C(A)C(AT)

(2) A A + = ( U Σ m × n V T ) ( V Σ n × m + U T ) = U Σ m × n Σ n × m + U T = U ( I r 0 0 0 ) m × m U T AA^+=(U\Sigma_{m\times n} V^T)(V\Sigma^+_{n\times m}U^T)=U\Sigma_{m\times n}\Sigma^+_{n\times m}U^T=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T AA+=(UΣm×nVT)(VΣn×m+UT)=UΣm×nΣn×m+UT=U(Ir000)m×mUT 得出以下3个性质:

  • 对称性: ( A A + ) T = A A + (AA^+)^T=AA^+ (AA+)T=AA+
  • A A + = u 1 u 1 T +   . . .   + u r u r T , U = ( u 1 ,   . . .   u r ,   u r + 1   . . .   , u n ) AA^+=u_1u_1^T+\,...\,+u_ru_r^T, U=(u_1,\,...\,u_r,\,u_{r+1}\,...\,,u_n) AA+=u1u1T+...+ururT,U=(u1,...ur,ur+1...,un)
  • A A + = R m AA^+=R^m AA+=Rm C ( A ) C(A) C(A)的正交投影矩阵, A A + ∣ C ( A ) = i d , A A + ∣ N ( A T ) = 0 AA^+|_{C(A)}=id, AA^+|_{N(A^T)}=0 AA+C(A)=id,AA+N(AT)=0
    • 证明1: A A + x = ( u 1 u 1 T +   . . .   + u r u r T ) x = ( u 1 T x ) u 1 +   . . .   + ( u r T x ) u r AA^+x=(u_1u_1^T+\,...\,+u_ru_r^T)x=(u_1^Tx)u_1+\,...\,+(u_r^Tx)u_r AA+x=(u1u1T+...+ururT)x=(u1Tx)u1+...+(urTx)ur,由奇异值svd分解得到 V = ( v 1 ,   . . .   , v r ) V=(v_1,\,...\,,v_r) V=(v1,...,vr) A T A^T AT列空间(即 C ( A T ) C(A^T) C(AT))的单位正交特征向量基,而 U = ( u 1 ,   . . .   , u r ) U=(u_1,\,...\,,u_r) U=(u1,...,ur) C ( A ) C(A) C(A)的单位正交特征向量基,所以 A A + AA^+ AA+是投影到 C ( A ) C(A) C(A)的正交投影矩阵(即保留了 C ( A ) C(A) C(A)的部分),因此 A A + AA^+ AA+限制在 C ( A ) C(A) C(A)的变换即变成了恒等变换。而 U U U ( u r + 1   . . .   u m ) (u_{r+1}\,...\,u_m) (ur+1...um) U T U^T UT ( u r + 1   . . .   u m ) T (u_{r+1}\,...\,u_m)^T (ur+1...um)T即属于 N ( A T ) N(A^T) N(AT)的基乘以矩阵 ( I r 0 0 0 ) m × m \begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m} (Ir000)m×m中右下角的 0 0 0相当于对属于 N ( A T ) N(A^T) N(AT)的部分做了零变换。
    • 证明2: A + u j = 1 σ j v j ⇒ A A + u j = A ( 1 σ j v j ) = 1 σ j A v j A^+u_j={1\over \sigma_j}v_j\Rightarrow AA^+u_j=A({1\over\sigma_j}v_j)={1\over \sigma_j}Av_j A+uj=σj1vjAA+uj=A(σj1vj)=σj1Avj 再根据奇异值分解中 A v j = σ u j , ( 1 ≤ j ≤ r ) Av_j=\sigma u_j, (1\le j \le r) Avj=σuj,(1jr) A A + u j = u j ( 1 ≤ j ≤ r ) ,   A A + u j = 0 ( r + 1 ≤ j ≤ m ) AA^+u_j=u_j(1\le j\le r),\ AA^+u_j=0(r+1\le j \le m) AA+uj=uj(1jr), AA+uj=0(r+1jm)
    • 验证: ( A A + ) ( A A + ) = U ( I r 0 0 0 ) m × m U T U ( I r 0 0 0 ) m × m U T (AA^+)(AA^+)=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^TU\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T (AA+)(AA+)=U(Ir000)m×mUTU(Ir000)m×mUT,由于从svd分解知道 U U U是单位正交特征向量基 ,因此: U T = U − 1 ⇒ ( A A + ) ( A A + ) = U ( I r 0 0 0 ) m × m U T = A A + U^T=U^{-1}\Rightarrow (AA^+)(AA^+)=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T=AA^+ UT=U1(AA+)(AA+)=U(Ir000)m×mUT=AA+,这正是投影的性质:多次投影结果还是第一次投影结果。
    • 结果: ∀   p ∈ R m , b = p + e , p ∈ C ( A ) , e ∈ N ( A T ) , A A + b = p \forall\ p\in R^m, b=p+e, p\in C(A), e\in N(A^T), AA^+b=p  pRm,b=p+e,pC(A),eN(AT),AA+b=p

(3) A + A = ( V Σ n × m + U T ) ( U Σ m × n V T ) = V ( I r 0 0 0 ) n × n V T A^+A=(V\Sigma^+_{n\times m}U^T)(U\Sigma_{m\times n} V^T)=V\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{n\times n}V^T A+A=(VΣn×m+UT)(UΣm×nVT)=V(Ir000)n×nVT 得到以下三个性质(证明同上):

  • ( A + A ) T = A + A (A^+A)^T=A^+A (A+A)T=A+A
  • A + A = v 1 v 1 T +   . . .   + v r v r T A^+A=v_1v_1^T+\,...\,+v_rv_r^T A+A=v1v1T+...+vrvrT
  • A + A = R n A^+A=R^n A+A=Rn C ( A T ) C(A^T) C(AT)的正交投影矩阵( A + A ∣ C ( A T ) = i d , A + A ∣ N ( A ) = 0 A^+A|_{C(A^T)}=id,\quad A^+A|_{N(A)}=0 A+AC(AT)=id,A+AN(A)=0):
    • ∀   x ∈ R n = C ( A T ) ⨁ N ( A ) ) ,   x = x 1 , r + x r + 1 , n ,   x 1 , r ∈ C ( A T ) ,   x r + 1 , n ∈ N ( A T ) , A + A x = A + A ( x 1 ,   . . .   x r , x r + 1 ,   . . .   x n ) = x 1 , r \forall\ x\in R^n=C(A^T)\bigoplus N(A)),\ x=x_{1,r}+x_{r+1,n}, \ x_{1,r}\in C(A^T),\ x_{r+1,n}\in N(A^T),\\ A^+Ax=A^+A(x_1,\,...\,x_r,x_{r+1},\,...\,x_n)=x_{1,r}  xRn=C(AT)N(A)), x=x1,r+xr+1,n, x1,rC(AT), xr+1,nN(AT),A+Ax=A+A(x1,...xr,xr+1,...xn)=x1,r

为什么称为伪逆、左逆、右逆

清华大学公开课线性代数2——第6讲:伪逆_第3张图片
##例子
清华大学公开课线性代数2——第6讲:伪逆_第4张图片
注: u 1 , u 2 , u 3 u_1, u_2,u_3 u1,u2,u3 R m R^m Rm的一组基底那么它是 A v 1 σ 1 {Av_1\over \sigma_1} σ1Av1,那么很容易计算出来,是 1 2 ( 1 1 0 ) {1\over\sqrt{2}}\begin{pmatrix}1\\1\\0\end{pmatrix} 2 1110 u 2 u_2 u2 u 3 u_3 u3 分别是0所对应的特征向量, u 2 u_2 u2 u 3 u_3 u3可以看成是三维空间里头, u 1 u_1 u1的正交补所给出来的单位正交的向量

特例

清华大学公开课线性代数2——第6讲:伪逆_第5张图片

Jordan标准形的伪逆

清华大学公开课线性代数2——第6讲:伪逆_第6张图片
推导结论: J n + = J n T J_n^+=J_n^T Jn+=JnT,Jordan标准形的伪逆是它自己的转置。
##Moore-Penrose伪逆
###E.H.Moore伪逆
清华大学公开课线性代数2——第6讲:伪逆_第7张图片

Penrose伪逆

清华大学公开课线性代数2——第6讲:伪逆_第8张图片
注:

  1. A可以是mxn的复数矩阵,这样的话(3)(4)里面就变成共轭转置。
  2. Penrose伪逆与E.H.Moore伪逆定义是等价的。

( 1 ) A X A = A ⇒ A X A X = A X ⇒ ( A X ) N = A X ⇒ A X (1)AXA =A \Rightarrow AXAX=AX\Rightarrow (AX)^N=AX\Rightarrow AX (1)AXA=AAXAX=AX(AX)N=AXAX 是幂等矩阵,投影矩阵
( 2 ) X A X = X ⇒ X A X A = X A ⇒ ( X A ) N = X A ⇒ X A (2)XAX=X\Rightarrow XAXA=XA\Rightarrow (XA)^N=XA\Rightarrow XA (2)XAX=XXAXA=XA(XA)N=XAXA 是幂等矩阵,投影矩阵
( 3 ) ( A X ) T = A X ⇒ A X (3)(AX)^T=AX\Rightarrow AX (3)(AX)T=AXAX 是对称矩阵
( 4 ) ( X A ) T = X A ⇒ X A (4)(XA)^T=XA\Rightarrow XA (4)(XA)T=XAXA 是对称矩阵

通过奇异值分解得到的伪逆矩阵 A + A^+ A+ A A + : R m → C ( A ) AA^+: R^m \rightarrow C(A) AA+:RmC(A) A + A : R n → C ( A T ) = C ( A + ) A^+A:R^n\rightarrow C(A^T)=C(A^+) A+A:RnC(AT)=C(A+),前文已经证明两者都是对称的,所以符合Penrose对伪逆矩阵的定义。对于伪逆唯一性的证明上文图片太小可以放大来看。

伪逆的应用之最小二乘法

引言

清华大学公开课线性代数2——第6讲:伪逆_第9张图片
**但是我们需要求 e e e 即误差最小的解!**但是这时候 A m × n A_{m\times n} Am×n不是列满秩不存在逆矩阵,于是自然地想到利用伪逆求解。
###伪逆求解正规方程——最佳最小二乘解
清华大学公开课线性代数2——第6讲:伪逆_第10张图片
注:由于 A + A^+ A+ 来自于: A + U T = V Σ + ,   ( v 1   . . .   v r ) ∈ C ( A T ) ,   ( v r + 1   . . .   v n ) ∈ N ( A ) ,   ( u 1   . . .   u r ) ∈ C ( A ) ,   ( u r + 1   . . .   u m ) ∈ N ( A T ) , Σ + = ( 1 σ 1 1 σ 2 . . 1 σ r 0 ) n × m ⇒ A + : C ( A ) → C ( A T ) A^+U^T=V\Sigma^{+},\ (v_1\,...\,v_r)\in C(A^T),\ (v_{r+1}\,...\,v_n)\in N(A),\ (u_1\,...\,u_r)\in C(A),\ (u_{r+1}\,...\,u_m)\in N(A^T),\\\Sigma^+=\begin{pmatrix}{1\over \sigma_1}\\&{1\over \sigma_2}\\&&.\\&&&.\\&&&&{1\over \sigma_r}\\&&&&&0\end{pmatrix}_{n\times m}\Rightarrow A^+: C(A)\rightarrow C(A^T) A+UT=VΣ+, (v1...vr)C(AT), (vr+1...vn)N(A), (u1...ur)C(A), (ur+1...um)N(AT),Σ+=σ11σ21..σr10n×mA+:C(A)C(AT),另外由于 A T A x = 0 , A x = 0 A^TAx=0, Ax=0 ATAx=0,Ax=0 同解所以零空间相同。

最佳最小二乘解的四个基本子空间

清华大学公开课线性代数2——第6讲:伪逆_第11张图片

你可能感兴趣的:(线性代数)