线性代数基础知识(上)
线性代数基础知识(下)
广义逆矩阵
投影矩阵
- 投影的定义
- 投影矩阵
- 正交投影的性质
- 投影矩阵的应用
- 从投影角度看最小二乘
- 从投影角度看广义逆
- (待补充)
投影的定义
什么是投影?下图给出了投影的直观理解:
如图是在三维空间中,一条直线 l l l与一个平面 α \alpha α相交,向量 z z z是三维空间中不在 α \alpha α内的一个向量。把 l l l看成是一束光(方向从上到下),光照射向量 z z z后,在平面 α \alpha α上留下了 z z z的阴影 x x x,这就是投影。如何用数学语言描述投影呢?观察一下,图中有 z = x + y z=x+y z=x+y,所谓的光线 l l l实际上就是向量 y y y所在的直线。因此,可以用向量的分解来描述投影。
投影分两种情形。直观上,我们以 R n R^n Rn的基 e 1 , e 2 , . . . , e n e_1,e_2,...,e_n e1,e2,...,en分别为方向建立n个坐标轴的直角坐标系,则 R n R^n Rn中的向量在基下的坐标恰好是其自身。零向量恰好对应坐标原点。
第一种情形是投影面过坐标原点(即零向量在投影面内),此时该投影面是 R n R^n Rn的一个子空间:
第二种情形是投影面不过坐标原点,此时投影面不是 R n R^n Rn的一个子空间(因为零向量不在投影面内):
这种情况可以看做是 R n R^n Rn的一个子空间经过平移的结果:平面 { x ∣ w T x = 0 } \{x|w^Tx=0\} {x∣wTx=0}沿 α ≠ 0 \alpha \neq 0 α̸=0平移后得到 { x ∣ w T ( x − α ) = 0 } \{x|w^T(x-\alpha)=0\} {x∣wT(x−α)=0}(在上图中可以看做是平面从坐标原点沿 x x x平移后的结果),由于 0 ∉ { x ∣ w T ( x − α ) = 0 } 0\notin \{x|w^T(x-\alpha)=0\} 0∈/{x∣wT(x−α)=0},故后者不是子空间。
第二种情形存在的原因是为了更好地拟合数据点:
如上图,显然不过原点的平面才能更好地拟合数据点。
第二种情形可以通过将投影面平移到坐标原点转化为第一种情形,因而我们只讨论第一种情形。下面给出投影的数学定义。(下面对投影的探讨均在 C n C^n Cn中进行, R n R^n Rn中的探讨是类似的)
- 定义:设L和M都是 C n C^n Cn的线性子空间,且 C n = L ⊕ M C^n=L\oplus M Cn=L⊕M。 ∀ z ∈ C n \forall z\in C^n ∀z∈Cn, z z z可唯一地分解为 z = x + y , x ∈ L , y ∈ M z=x+y,x\in L, y\in M z=x+y,x∈L,y∈M。我们称 x x x是 z z z沿着子空间 M M M到子空间 L L L的投影。
【注】可否将定义中的 C n = L ⊕ M C^n=L\oplus M Cn=L⊕M改为 C n = L + M C^n=L+M Cn=L+M?答案是否定的,因为投影需要保证唯一性。
作为一种特殊的投影,正交投影的定义如下:
- 定义:设L是 C n C^n Cn的线性子空间,则有 C n = L ⊕ L ⊥ C^n=L\oplus L^\bot Cn=L⊕L⊥。 ∀ z ∈ C n \forall z\in C^n ∀z∈Cn, z z z可唯一地分解为 z = x + y , x ∈ L , y ∈ L ⊥ z=x+y,x\in L, y\in L^\bot z=x+y,x∈L,y∈L⊥。我们称 x x x是 z z z到子空间 L L L的正交投影。
接下来就是投影如何求解的问题。本质上,我们将投影视作一种变换,因而我们的目标是求得映射(算子/变换) f : C n → C n f:C^n\rightarrow C^n f:Cn→Cn,使得对于任意 z ∈ C n z\in C^n z∈Cn, f ( z ) = x f(z)=x f(z)=x,其中 x x x满足 z = x + y , x ∈ L , y ∈ M z=x+y, x\in L,y\in M z=x+y,x∈L,y∈M。
- 性质一:投影变换 f f f是线性变换(线性算子):
∀ z 1 , z 2 ∈ C n , c 1 , c 2 ∈ C \forall z_1,z_2\in C^n,c_1,c_2\in C ∀z1,z2∈Cn,c1,c2∈C,设 z i = x i + y i , x i ∈ L , y i ∈ M ( i = 1 , 2 ) z_i=x_i+y_i,x_i\in L,y_i\in M(i=1,2) zi=xi+yi,xi∈L,yi∈M(i=1,2),则 f ( z 1 ) = x 1 f(z_1)=x_1 f(z1)=x1, f ( z 2 ) = x 2 f(z_2)=x_2 f(z2)=x2。由于 c 1 z 1 + c 2 z 2 = c 1 ( x 1 + y 1 ) + c 2 ( x 2 + y 2 ) = ( c 1 x 1 + c 2 x 2 ) + ( c 1 y 1 , c 2 y 2 ) c_1z_1+c_2z_2=c_1(x_1+y_1)+c_2(x_2+y_2)=(c_1x_1+c_2x_2)+(c_1y_1,c_2y_2) c1z1+c2z2=c1(x1+y1)+c2(x2+y2)=(c1x1+c2x2)+(c1y1,c2y2),且有 ( c 1 x 1 + c 2 x 2 ) ∈ L (c_1x_1+c_2x_2)\in L (c1x1+c2x2)∈L, ( c 1 y 1 + c 2 y 2 ) ∈ M (c_1y_1+c_2y_2)\in M (c1y1+c2y2)∈M,故 f ( c 1 z 1 + c 2 z 2 ) = c 1 x 1 + c 2 x 2 = c 1 f ( z 1 ) + c 2 f ( z 2 ) f(c_1z_1+c_2z_2)=c_1x_1+c_2x_2=c_1f(z_1)+c_2f(z_2) f(c1z1+c2z2)=c1x1+c2x2=c1f(z1)+c2f(z2)。根据线性变换的定义知 f f f是线性变换。
- 性质二: f f f的值域 R ( f ) = L R(f)=L R(f)=L:
显然 R ( f ) ⊆ L R(f)\subseteq L R(f)⊆L,现证明 L ⊆ R ( f ) L\subseteq R(f) L⊆R(f):任取 z ∈ L z\in L z∈L, z z z可唯一地分解为 z = z + 0 , z ∈ L , 0 ∈ M z=z+0,z\in L,0\in M z=z+0,z∈L,0∈M,故 f ( z ) = z f(z)=z f(z)=z(这说明了 L L L中的向量到 L L L的投影是其自身),即 z ∈ R ( f ) z\in R(f) z∈R(f),故 L ⊆ R ( f ) L\subseteq R(f) L⊆R(f)。
- 性质三:设沿着 L L L到 M M M的投影变换是 g : C n → C n g:C^n\rightarrow C^n g:Cn→Cn,则 ∀ z ∈ C n \forall z\in C^n ∀z∈Cn, g ( z ) = y = z − x = z − f ( z ) g(z)=y=z-x=z-f(z) g(z)=y=z−x=z−f(z)。
投影矩阵的定义根据线性变换的矩阵的定义得到:
- 定义:线性变换 f f f(如上定义)在基 e 1 , e 2 , . . , e n e_1,e_2,..,e_n e1,e2,..,en下的矩阵称为沿着 M M M到 L L L投影矩阵。常将沿着 M M M到 L L L投影矩阵记为 P L , M P_{L,M} PL,M
- 定义:若上述 L L L和 M M M满足 M = L ⊥ M=L^\bot M=L⊥,则称线性变换 f f f(如上定义)在基 e 1 , e 2 , . . , e n e_1,e_2,..,e_n e1,e2,..,en下的矩阵为到 L L L的正交投影矩阵,常记为 P L P_L PL
需要注意的一点是,若沿着 M M M到 L L L投影矩阵是 P P P,则根据 f f f的性质可知:
1、沿 L L L到 M M M的投影矩阵是 I − P I-P I−P(性质三)
2、 L = { P x ∣ x ∈ C n } = R ( P ) L=\{Px|x\in C^n\}=R(P) L={Px∣x∈Cn}=R(P), M = { ( I − P ) x ∣ x ∈ C n } = R ( I − P ) M=\{(I-P)x|x\in C^n\}=R(I-P) M={(I−P)x∣x∈Cn}=R(I−P)。( R ( P ) R(P) R(P)是指 P P P的列空间)(性质二和性质三)
投影矩阵
投影矩阵的求法
-
一般的投影矩阵
求解投影矩阵的思路是将 x x x和 y y y分别用 L L L和 M M M的基表示出来。设 L L L的基按列构成矩阵 A A A, M M M的基按列构成矩阵 B B B,由于 L L L的基和 M M M的基的并可作为 C n C^n Cn的一组基(这一点的证明请参考线性代数基础知识(下)中子空间的运算与关系部分),因此 [ A B ] \begin{bmatrix}A&B\end{bmatrix} [AB]是可逆矩阵。设 x = A z 1 x=Az_1 x=Az1, y = B z 2 y=Bz_2 y=Bz2,则 z = [ A B ] [ z 1 z 2 ] z=\begin{bmatrix}A&B\end{bmatrix}\begin{bmatrix}z_1\\z_2\end{bmatrix} z=[AB][z1z2]。
接下来用 z z z将 x x x表示出来:由 z = [ A B ] [ z 1 z 2 ] z=\begin{bmatrix}A&B\end{bmatrix}\begin{bmatrix}z_1\\z_2\end{bmatrix} z=[AB][z1z2]可得 [ z 1 z 2 ] = [ A B ] − 1 z \begin{bmatrix}z_1\\z_2\end{bmatrix}=\begin{bmatrix}A&B\end{bmatrix}^{-1}z [z1z2]=[AB]−1z,故 x = A z 1 = [ A O ] [ z 1 z 2 ] = [ A O ] [ A B ] − 1 z x=Az_1=\begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}z_1\\z_2\end{bmatrix}=\begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1}z x=Az1=[AO][z1z2]=[AO][AB]−1z,也就是说 f ( z ) = x = [ A O ] [ A B ] − 1 z f(z)=x=\begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1}z f(z)=x=[AO][AB]−1z。故矩阵 [ A O ] [ A B ] − 1 \begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1} [AO][AB]−1是沿着 M M M到 L L L的投影矩阵。
-
正交投影矩阵
正交投影作为一种特殊的投影,完全可以将 [ A O ] [ A B ] − 1 \begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1} [AO][AB]−1作为投影矩阵,其中 A A A是 L L L的基按列构成的矩阵, B B B是 L ⊥ L^\bot L⊥的基按列构成的矩阵。但这样没有用到“正交”这个条件,不能充分发掘正交投影的数学性质。接下来,我们利用“正交”这个条件进一步探寻正交情形下投影矩阵的形式。我们有两种方式得到正交投影矩阵:
- 从一般的投影矩阵 [ A O ] [ A B ] − 1 \begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1} [AO][AB]−1出发:
由于 L ⊥ L ⊥ L\bot L^\bot L⊥L⊥,即 L L L中任意向量都与 L ⊥ L^\bot L⊥中任意向量正交,所以 A H B = O A^HB=O AHB=O, B H A = O B^HA=O BHA=O。我们设法构造出 [ A B ] − 1 \begin{bmatrix}A&B\end{bmatrix}^{-1} [AB]−1:由于 A A A和 B B B都是列满秩矩阵,故它们的左伪逆 L 1 L_1 L1和 L 2 L_2 L2存在。 [ L 1 L 2 ] [ A B ] = [ ( A H A ) − 1 A H ( B H B ) − 1 B H ] [ A B ] = [ I O O I ] = I \begin{bmatrix}L_1\\L_2\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}=\begin{bmatrix}(A^HA)^{-1}A^H\\(B^HB)^{-1}B^H\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}=\begin{bmatrix}I&O\\O&I\end{bmatrix}=I [L1L2][AB]=[(AHA)−1AH(BHB)−1BH][AB]=[IOOI]=I,两端右乘 [ A B ] − 1 \begin{bmatrix}A&B\end{bmatrix}^{-1} [AB]−1得到 [ A B ] − 1 = [ ( A H A ) − 1 A H ( B H B ) − 1 B H ] \begin{bmatrix}A&B\end{bmatrix}^{-1}=\begin{bmatrix}(A^HA)^{-1}A^H\\(B^HB)^{-1}B^H\end{bmatrix} [AB]−1=[(AHA)−1AH(BHB)−1BH]。
因此 [ A O ] [ A B ] − 1 = [ A O ] [ ( A H A ) − 1 A H ( B H B ) − 1 B H ] = A ( A H A ) − 1 A H \begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}A&B\end{bmatrix}^{-1}=\begin{bmatrix}A&O\end{bmatrix}\begin{bmatrix}(A^HA)^{-1}A^H\\(B^HB)^{-1}B^H\end{bmatrix}=A(A^HA)^{-1}A^H [AO][AB]−1=[AO][(AHA)−1AH(BHB)−1BH]=A(AHA)−1AH。可见在正交的情形下,投影矩阵完全由 L L L本身确定。(同理可得到 L ⊥ L^\bot L⊥的正交投影矩阵为 B ( B H B ) − 1 B H B(B^HB)^{-1}B^H B(BHB)−1BH)
- 从正交投影在 L L L的正交基下的表示出发:
- 引理:设 z ∈ C n z\in C^n z∈Cn, L L L是 C n C^n Cn的k维线性子空间, u 1 , u 2 , . . . , u k u_1,u_2,...,u_k u1,u2,...,uk是 L L L中的一组正交基,则 z ∈ C n z\in C^n z∈Cn到 L L L的正交投影为 a = < u 1 , z > < u 1 , u 1 > u 1 + < u 2 , z > < u 2 , u 2 > u 2 + . . . + < u k , z > < u k , u k > u k a=\frac{<u_1,z>}{<u_1,u_1>}u_1+\frac{<u_2,z>}{<u_2,u_2>}u_2+...+\frac{<u_k,z>}{<u_k,u_k>}u_k a=<u1,u1><u1,z>u1+<u2,u2><u2,z>u2+...+<uk,uk><uk,z>uk
证明:
根据正交投影的定义,只需证明 z − a ∈ L ⊥ z-a\in L^\bot z−a∈L⊥即可。对 i = 1 , 2 , . . . , k i=1,2,...,k i=1,2,...,k,有 < u i , a > = ∑ j = 1 k < u i , < u j , z > < u j , u j > u j > = < u i , z > < u i , u i > < u i , u i > = < u i , z > <u_i,a>=\sum_{j=1}^k<u_i,\frac{<u_j,z>}{<u_j,u_j>}u_j>=\frac{<u_i,z>}{<u_i,u_i>}<u_i,u_i>=<u_i,z> <ui,a>=∑j=1k<ui,<uj,uj><uj,z>uj>=<ui,ui><ui,z><ui,ui>=<ui,z>,则 < a , u i > = < z , u i > <a,u_i>=<z,u_i> <a,ui>=<z,ui>。对 ∀ b ∈ L \forall b\in L ∀b∈L,设 b = c 1 u 1 + c 2 u 2 + . . . + c k u k b=c_1u_1+c_2u_2+...+c_ku_k b=c1u1+c2u2+...+ckuk,则 < a , b > = ∑ i = 1 k c i < a , u i > = ∑ i = 1 k c i < z , u i > = < z , b > <a,b>=\sum_{i=1}^kc_i<a,u_i>=\sum_{i=1}^kc_i<z,u_i>=<z,b> <a,b>=∑i=1kci<a,ui>=∑i=1kci<z,ui>=<z,b>,即 < z − a , b > = 0 <z-a,b>=0 <z−a,b>=0,故 z − a ∈ L ⊥ z-a\in L^\bot z−a∈L⊥,得证。
- 定理:设 L L L是 C n C^n Cn的k维线性子空间,设任取 L L L的一组基按列构成矩阵 A A A,则到 L L L的正交投影矩阵为 A ( A H A ) − 1 A H A(A^HA)^{-1}A^H A(AHA)−1AH
证明:任取 L L L的一组正交基 u 1 , u 2 , . . . , u k u_1,u_2,...,u_k u1,u2,...,uk按列构成矩阵 U = [ u 1 u 2 . . . u k ] U=\begin{bmatrix}u_1&u_2&...&u_k\end{bmatrix} U=[u1u2...uk],由引理知, z ∈ C n z\in C^n z∈Cn到 L L L的正交投影为 a = < u 1 , z > < u 1 , u 1 > u 1 + < u 2 , z > < u 2 , u 2 > u 2 + . . . + < u k , z > < u k , u k > u k = [ u 1 u 2 . . . u k ] [ u 1 H < u 1 , u 1 > u 2 H < u 2 , u 2 > . . . u k H < u k , u k > ] z = [ u 1 u 2 . . . u k ] d i a g ( ( u 1 H u 1 ) − 1 , ( u 2 H u 2 ) − 1 , . . . , ( u k H u k ) − 1 ) [ u 1 H u 2 H . . . u k H ] z = U ( U H U ) − 1 U H z \begin{aligned}a&=\frac{<u_1,z>}{<u_1,u_1>}u_1+\frac{<u_2,z>}{<u_2,u_2>}u_2+...+\frac{<u_k,z>}{<u_k,u_k>}u_k\\&=\begin{bmatrix}u_1&u_2&...&u_k\end{bmatrix}\begin{bmatrix}\frac{u_1^H}{<u_1,u_1>}\\\frac{u_2^H}{<u_2,u_2>}\\...\\\frac{u_k^H}{<u_k,u_k>}\end{bmatrix}z\\&=\begin{bmatrix}u_1&u_2&...&u_k\end{bmatrix}diag((u_1^Hu_1)^{-1},(u_2^Hu_2)^{-1},...,(u_k^Hu_k)^{-1})\begin{bmatrix}u_1^H\\u_2^H\\...\\u_k^H\end{bmatrix}z\\&=U(U^HU)^{-1}U^Hz\end{aligned} a=<u1,u1><u1,z>u1+<u2,u2><u2,z>u2+...+<uk,uk><uk,z>uk=[u1u2...uk]⎣⎢⎢⎢⎢⎡<u1,u1>u1H<u2,u2>u2H...<uk,uk>ukH⎦⎥⎥⎥⎥⎤z=[u1u2...uk]diag((u1Hu1)−1,(u2Hu2)−1,...,(ukHuk)−1)⎣⎢⎢⎡u1Hu2H...ukH⎦⎥⎥⎤z=U(UHU)−1UHz故 U ( U H U ) − 1 U H U(U^HU)^{-1}U^H U(UHU)−1UH是到 L L L的正交投影矩阵。设 A A A到 U U U的过渡矩阵为 P P P,则 P P P是可逆矩阵, U = A P U=AP U=AP。 U ( U H U ) − 1 U H = ( A P ) ( ( A P ) H ( A P ) ) − 1 ( A P ) H = A P P − 1 ( A H A ) − 1 ( P H ) − 1 P H A H = A ( A H A ) − 1 A H U(U^HU)^{-1}U^H=(AP)((AP)^H(AP))^{-1}(AP)^H=APP^{-1}(A^HA)^{-1}(P^H)^{-1}P^HA^H=A(A^HA)^{-1}A^H U(UHU)−1UH=(AP)((AP)H(AP))−1(AP)H=APP−1(AHA)−1(PH)−1PHAH=A(AHA)−1AH,故 A ( A H A ) − 1 A H A(A^HA)^{-1}A^H A(AHA)−1AH是到 L L L的正交投影矩阵。
投影矩阵的性质
投影矩阵最重要的一个性质是它与幂等矩阵间的关系。实际上,任意投影矩阵都是幂等矩阵,任意幂等矩阵都是投影矩阵。
正交投影的性质
正交投影是最常用的投影方式,原因在于它能够使得原向量和它的投影之间的距离最小,即通常直觉上的“垂直距离最小”。对于数据点来说即原数据点与投影后的数据点的差异最小,无论在数据拟合还是去噪时都起着至关重要的作用。
- 投影定理:设 L L L是 C n C^n Cn的一个线性子空间, P P P是到 L L L的正交投影矩阵, ∀ x ∈ C n \forall x\in C^n ∀x∈Cn,若 x ^ = P x \hat x=Px x^=Px,则 ∀ y ∈ L \forall y\in L ∀y∈L, ∣ ∣ x − x ^ ∣ ∣ 2 ⩽ ∣ ∣ x − y ∣ ∣ 2 ||x-\hat x||_2\leqslant ||x-y||_2 ∣∣x−x^∣∣2⩽∣∣x−y∣∣2
证明:
∀ x ∈ C n , y ∈ L \forall x\in C^n,y\in L ∀x∈Cn,y∈L, ( I − P ) x ∈ L ⊥ (I-P)x\in L^\bot (I−P)x∈L⊥,故 ( I − P ) x (I-P)x (I−P)x与任意 L L L中向量正交。因为 P x − y ∈ L Px-y\in L Px−y∈L,故 < x − P x , P x − y > = 0 <x-Px,Px-y>=0 <x−Px,Px−y>=0。
∣ ∣ x − y ∣ ∣ 2 2 = ∣ ∣ x − P x + P x − y ∣ ∣ 2 2 = ∣ ∣ x − P x ∣ ∣ 2 2 + ∣ ∣ P x − y ∣ ∣ 2 2 + 2 R e { < x − P x , P x − y > } = ∣ ∣ x − P x ∣ ∣ 2 2 + ∣ ∣ P x − y ∣ ∣ 2 2 ⩾ ∣ ∣ x − P x ∣ ∣ 2 2 \begin{aligned}||x-y||_2^2&=||x-Px+Px-y||_2^2\\&=||x-Px||_2^2+||Px-y||_2^2+2Re\{<x-Px,Px-y>\}\\&=||x-Px||_2^2+||Px-y||_2^2\\&\geqslant ||x-Px||^2_2\end{aligned} ∣∣x−y∣∣22=∣∣x−Px+Px−y∣∣22=∣∣x−Px∣∣22+∣∣Px−y∣∣22+2Re{<x−Px,Px−y>}=∣∣x−Px∣∣22+∣∣Px−y∣∣22⩾∣∣x−Px∣∣22
- 投影定理逆定理:设 L L L是 C n C^n Cn的一个线性子空间, P P P是到 L L L的正交投影矩阵, ∀ x ∈ C n \forall x\in C^n ∀x∈Cn,若 x ^ ∈ L \hat x\in L x^∈L满足 ∀ y ∈ L \forall y\in L ∀y∈L, ∣ ∣ x − x ^ ∣ ∣ 2 ⩽ ∣ ∣ x − y ∣ ∣ 2 ||x-\hat x||_2\leqslant ||x-y||_2 ∣∣x−x^∣∣2⩽∣∣x−y∣∣2,则 x ^ = P x \hat x=Px x^=Px
证明:
∀ x ∈ C n \forall x\in C^n ∀x∈Cn,设实值函数 f ( y ) = ∣ ∣ x − y ∣ ∣ 2 2 , y ∈ L f(y)=||x-y||_2^2,y\in L f(y)=∣∣x−y∣∣22,y∈L,则 f f f在 x ^ \hat x x^处取得最小值。
∀ v ∈ L \forall v\in L ∀v∈L,构造实函数 g v ( t ) = f ( x ^ − t v ) , t ∈ R g_v(t)=f(\hat x-tv),t\in R gv(t)=f(x^−tv),t∈R,则 g v g_v gv在 t = 0 t=0 t=0处取得最小值,由极值的必要条件得 g ′ ( 0 ) = 0 g'(0)=0 g′(0)=0,计算可得 R e { < x − x ^ , v > } = 0 Re\{<x-\hat x,v>\}=0 Re{<x−x^,v>}=0。同理, ∀ v ∈ L \forall v\in L ∀v∈L,构造 h v ( t ) = f ( x ^ − i t v ) , t ∈ R h_v(t)=f(\hat x-itv),t\in R hv(t)=f(x^−itv),t∈R( i i i是虚数单位),可得 I m { < x − x ^ , v > } = 0 Im\{<x-\hat x,v>\}=0 Im{<x−x^,v>}=0。故 ∀ v ∈ L \forall v\in L ∀v∈L,有 < x − x ^ , v > = 0 <x-\hat x,v>=0 <x−x^,v>=0,故 x − x ^ ∈ L ⊥ x-\hat x\in L^\bot x−x^∈L⊥。因为 x = x ^ + ( x − x ^ ) , x ^ ∈ L , x − x ^ ∈ L ⊥ x=\hat x+(x-\hat x),\hat x\in L,x-\hat x\in L^\bot x=x^+(x−x^),x^∈L,x−x^∈L⊥,故 x ^ = P x \hat x=Px x^=Px。
简单概括一下就是,正交投影满足“垂直距离最小”,要想使得投影后的数据点与原数据点间的差异最小,非正交投影(叫斜投影)是不行的,只有正交投影才可以。
投影矩阵的应用
投影矩阵的应用如最小二乘、广义逆、PCA等,先写几个简单的,后面碰到了再补充。
从投影角度看最小二乘
前面的博客(广义逆矩阵)中,我们使用广义逆矩阵解决了不相容方程组(非一致方程/超定方程组,都是指没有精确解) A x = y Ax=y Ax=y的最小二乘解问题,并证明了最小二乘解与正规方程的精确解间的关系。如果把问题限定在实数域下,还可以使用矩阵求导和凸优化理论得到同样的结论:求最小二乘解等价于解正规方程。现在,我们从正交投影的角度重新审视最小二乘解问题,并不出所料地再次得到求最小二乘解等价于解正规方程的结论。
-
定义:方程 A m × n x = y A_{m\times{n}}x=y Am×nx=y的最小二乘解 x ^ \hat{x} x^定义为 x ^ \hat{x} x^满足 ∣ ∣ A x ^ − y ∣ ∣ 2 = min x ∈ C n ∣ ∣ A x − y ∣ ∣ 2 ||A\hat{x}-y||_2=\min_{x\in{C^n}}{||Ax-y||_2} ∣∣Ax^−y∣∣2=x∈Cnmin∣∣Ax−y∣∣2
-
定理: A x = y Ax=y Ax=y是相容方程组的充要条件是 y ∈ R ( A ) y\in R(A) y∈R(A),其中 R ( A ) R(A) R(A)是 A A A的列空间
证明:由列空间的定义 R ( A ) = { A x ∣ x ∈ C n } R(A)=\{Ax|x\in C^n\} R(A)={Ax∣x∈Cn}即得。
上述定理说明方程组不相容的原因是 y y y不在 A A A的列空间 R ( A ) R(A) R(A)中。我们容易猜到可以将 y y y正交投影到 R ( A ) R(A) R(A)中,然后求解新的方程组。现在我们验证一下这个猜想:由最小二乘解的定义,要找到 R ( A ) R(A) R(A)中一个向量 A x ^ A\hat x Ax^,使得对于 R ( A ) R(A) R(A)中任意向量 A x Ax Ax,都有 ∣ ∣ y − A x ^ ∣ ∣ 2 ⩽ ∣ ∣ y − A x ∣ ∣ 2 ||y-A\hat x||_2\leqslant ||y-Ax||_2 ∣∣y−Ax^∣∣2⩽∣∣y−Ax∣∣2。故由投影定理及其逆定理,我们要找的 A x ^ A\hat x Ax^就是 y y y在 R ( A ) R(A) R(A)中的正交投影 P y Py Py,其中 P P P是到 R ( A ) R(A) R(A)的正交投影矩阵。这就是说,求 A x = y Ax=y Ax=y最小二乘解等价于求 A x = P y Ax=Py Ax=Py的解。
接下来,我们通过证明 A x = P y Ax=Py Ax=Py与正规方程 A H A x = A H y A^HAx=A^Hy AHAx=AHy是同解方程组来验证这种做法的正确性:
- 定理:设 A ∈ C m × n A\in C^{m\times n} A∈Cm×n,到 R ( A ) R(A) R(A)的正交投影矩阵是 P P P,则 A x = P y Ax=Py Ax=Py与 A H A x = A H y A^HAx=A^Hy AHAx=AHy等价
证明:
由 ( I − P ) y ∈ R ( A ) ⊥ = N ( A H ) (I-P)y\in R(A)^\bot=N(A^H) (I−P)y∈R(A)⊥=N(AH),得 A H ( I − P ) y = 0 A^H(I-P)y=0 AH(I−P)y=0。
⇒ \Rightarrow ⇒:若 A x = P y Ax=Py Ax=Py,则 A H A x = A H P y A^HAx=A^HPy AHAx=AHPy。故 A H A x = A H P y + A H ( I − P ) y = A H y A^HAx=A^HPy+A^H(I-P)y=A^Hy AHAx=AHPy+AH(I−P)y=AHy。
⇐ \Leftarrow ⇐:若 A H A x = A H y A^HAx=A^Hy AHAx=AHy,则 A H A x = A H y = A H P y + A H ( I − P ) y = A H P y A^HAx=A^Hy=A^HPy+A^H(I-P)y=A^HPy AHAx=AHy=AHPy+AH(I−P)y=AHPy。由于 ( A x − P y ) ∈ R ( A ) (Ax-Py)\in R(A) (Ax−Py)∈R(A),而 A H ( A x − P y ) = 0 A^H(Ax-Py)=0 AH(Ax−Py)=0说明 ( A x − P y ) ∈ N ( A H ) (Ax-Py)\in N(A^H) (Ax−Py)∈N(AH),故 ( A x − P y ) ∈ R ( A ) ∩ N ( A H ) = L ( 0 ) (Ax-Py)\in R(A)\cap N(A^H)=L(0) (Ax−Py)∈R(A)∩N(AH)=L(0),即 A x − P y = 0 Ax-Py=0 Ax−Py=0,故 A x = P y Ax=Py Ax=Py。
从投影的角度,我们再次得到了“求最小二乘解等价于解正规方程”这个结论。下面我们总结用正交投影求 A x = y Ax=y Ax=y的最小二乘解的方法:
第一步,求到 R ( A ) R(A) R(A)的正交投影矩阵。根据前面投影矩阵的求法,只要找到 R ( A ) R(A) R(A)的一组基即可。取 A A A的列向量组的一个极大无关组(只要对 A A A施加初等行变换,将其化成行阶梯形,行阶梯形的每个非零行的首非零元所在列对应 A A A中的列(例如,行阶梯形的某非零行的首非零元在第i列,则对应的是 A A A的第i列)就是极大无关组中的一个向量)构成列满秩矩阵 B B B,则正交投影矩阵 P = B ( B H B ) − 1 B H P=B(B^HB)^{-1}B^H P=B(BHB)−1BH。
第二步,求解相容方程组 A x = P y Ax=Py Ax=Py。
顺便总结一下求 A x = y Ax=y Ax=y的最小二乘解的方法:
1、根据广义逆理论,求最小二乘解等价于求 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y Ax=AA(1,3)y(或 A x = A A + y Ax=AA^+y Ax=AA+y)的精确解
(实际上这个方法没必要,如果求出了 A + A^+ A+,则 A + y A^+y A+y就是最小二乘解了)
2、根据投影理论,求最小二乘解等价于求 A x = P y Ax=Py Ax=Py的精确解,其中 P P P是到 R ( A ) R(A) R(A)的正交投影矩阵
3、根据广义逆理论或投影理论,我们证明了求最小二乘解等价于求正规方程 A H A x = A H y A^HAx=A^Hy AHAx=AHy的精确解
从投影角度看广义逆
前面的博客中我们曾从研究线性方程组的解出发引入了各种广义逆矩阵({1}逆、{1,3}逆、{1,4}逆、PM逆)的定义,并顺手解决了线性方程组的通解、极小范数解、最小二乘解、极小范数最小二乘解的问题。现在回顾一下它们的定义:
Penrose于1955年提出了Penrose-Moore条件,满足这些条件中的任何一个的矩阵G都可以称为A的一个广义逆矩阵,它们分别是:
- A G A = A AGA=A AGA=A
- G A G = G GAG=G GAG=G
- ( A G ) H = A G (AG)^H=AG (AG)H=AG
- ( G A ) H = G A (GA)^H=GA (GA)H=GA
满足第一条的矩阵称为 A A A的{1}逆,记为 G = A ( 1 ) G=A^{(1)} G=A(1);同时满足一、三条的矩阵称为 A A A的{1,3}逆,记为 G = A ( 1 , 3 ) G=A^{(1,3)} G=A(1,3);同时满足一、四条的矩阵称为 A A A的{1,4}逆,记为 G = A ( 1 , 4 ) G=A^{(1,4)} G=A(1,4);同时满足一、二、三、四条的矩阵称为 A A A的Moore-Penrose广义逆(PM逆),记为 G = A + G=A^+ G=A+。以此类推。
实际上,15类广义逆矩阵中多数都可以用投影来定义。下面我们举五个例子证明:
- 引理: R ( A A ( 1 ) ) = R ( A ) R(AA^{(1)})=R(A) R(AA(1))=R(A)
证明:
R ( A A ( 1 ) ) ⊆ R ( A ) R(AA^{(1)})\subseteq R(A) R(AA(1))⊆R(A):任取 x ∈ R ( A A ( 1 ) ) x\in R(AA^{(1)}) x∈R(AA(1)),则 ∃ y \exist y ∃y使得 x = A A ( 1 ) y x=AA^{(1)}y x=AA(1)y,即 ∃ z = A ( 1 ) y \exist z=A^{(1)}y ∃z=A(1)y使得 x = A z x=Az x=Az,故 x ∈ R ( A ) x\in R(A) x∈R(A)。
R ( A A ( 1 ) ) ⊇ R ( A ) R(AA^{(1)})\supseteq R(A) R(AA(1))⊇R(A):任取 x ∈ R ( A ) x\in R(A) x∈R(A),则 ∃ y \exist y ∃y使得 x = A y = A A ( 1 ) A y x=Ay=AA^{(1)}Ay x=Ay=AA(1)Ay,即 ∃ z = A y \exist z=Ay ∃z=Ay使得 x = A A ( 1 ) z x=AA^{(1)}z x=AA(1)z,故 x ∈ R ( A A ( 1 ) ) x\in R(AA^{(1)}) x∈R(AA(1))。
同理可证 R ( A ( 1 ) A ) = R ( A ( 1 ) ) R(A^{(1)}A)=R(A^{(1)}) R(A(1)A)=R(A(1)), R ( A A ( 1 , 3 ) ) = R ( A ) R(AA^{(1,3)})=R(A) R(AA(1,3))=R(A), R ( A ( 2 , 4 ) A ) = R ( A ( 2 , 4 ) ) R(A^{(2,4)}A)=R(A^{(2,4)}) R(A(2,4)A)=R(A(2,4))等等。
- G ∈ A { 1 } G\in A\{1\} G∈A{1}的充要条件为 A G AG AG是到 R ( A ) R(A) R(A)的投影矩阵
证明:
必要性:用 G G G右乘 A G A = A AGA=A AGA=A得到 ( A G ) 2 = A G (AG)^2=AG (AG)2=AG,即 A G AG AG是幂等矩阵。由“投影矩阵的性质”定理2知 A G AG AG是沿着 R ( I − A G ) R(I-AG) R(I−AG)到 R ( A G ) R(AG) R(AG)的投影矩阵,即到 R ( A ) R(A) R(A)的投影矩阵。
充分性:任取 A A A的一列 a a a( a ∈ R ( A ) a\in R(A) a∈R(A)),由投影算子的性质知 A G a = a AGa=a AGa=a,故 A G A = A AGA=A AGA=A。
- G ∈ A { 2 } G\in A\{2\} G∈A{2}的充要条件为 A G AG AG是到 R ( G ) R(G) R(G)的投影矩阵
证明:与上同理。
- G ∈ A { 1 , 3 } G\in A\{1,3\} G∈A{1,3}的充要条件为 A G AG AG是到 R ( A ) R(A) R(A)的正交投影矩阵
证明:
必要性:用 G G G右乘 A G A = A AGA=A AGA=A得到 ( A G ) 2 = A G (AG)^2=AG (AG)2=AG,又 ( A G ) H = A G (AG)^H=AG (AG)H=AG,故 A G AG AG是共轭对称的幂等矩阵。由“投影矩阵的性质”定理4知 A G AG AG是到 R ( A G ) R(AG) R(AG)的正交投影矩阵,即到 R ( A ) R(A) R(A)的正交投影矩阵。
充分性:任取 A A A的一列 a a a( a ∈ R ( A ) a\in R(A) a∈R(A)),由投影算子的性质知 A G a = a AGa=a AGa=a,故 A G A = A AGA=A AGA=A,由于正交投影矩阵都是共轭对称的,故 ( A G ) H = A G (AG)^H=AG (AG)H=AG。
- G ∈ A { 2 , 4 } G\in A\{2,4\} G∈A{2,4}的充要条件为 G A GA GA是到 R ( G ) R(G) R(G)的正交投影矩阵
证明:
必要性:用 A A A右乘 G A G = G GAG=G GAG=G得到 ( G A ) 2 = G A (GA)^2=GA (GA)2=GA,又 ( G A ) H = G A (GA)^H=GA (GA)H=GA,故 G A GA GA是共轭对称的幂等矩阵。由“投影矩阵的性质”定理4知 G A GA GA是到 R ( G A ) R(GA) R(GA)的正交投影矩阵,即到 R ( G ) R(G) R(G)的正交投影矩阵。
充分性:任取 G G G的一列 g g g( g ∈ R ( G ) g\in R(G) g∈R(G)),由投影算子的性质知 G A g = g GAg=g GAg=g,故 G A G = G GAG=G GAG=G,由于正交投影矩阵都是共轭对称的,故 ( G A ) H = G A (GA)^H=GA (GA)H=GA。
- G = A + G=A^+ G=A+的充要条件为 A G = P R ( A ) AG=P_{R(A)} AG=PR(A)且 G A = P R ( G ) GA=P_{R(G)} GA=PR(G)
证明:
结合上面 A { 1 , 3 } A\{1,3\} A{1,3}和 A { 2 , 4 } A\{2,4\} A{2,4}的充要条件即得。
PM逆最早被Moore提出,就是用投影来定义的;后来Penrose证明了Moore的定义与我们所说的四个条件(Penrose-Moore条件)是等价的,于是就有了用这四个条件的定义。Penrose的定义是现在最常用的,因为它看起来更简单直观。