MIT 线性代数导论 第十五讲:子空间投影

本讲的主要内容有:

  • 投影的概念
  • 为什么要进行投影操作
  • 最小二乘法的介绍

投影(Projection)

首先再二维平面中直观的看一下投影的概念:
MIT 线性代数导论 第十五讲:子空间投影_第1张图片
如图,两个不同向的向量 a a a b b b,其中 b b b 落在 a a a 的方向上的向量 p p p 就是 b b b a a a 上的投影,其实就是构成一个直角,这跟我们生活中的理解是一样的,从图中,我们有以下的定义和结论:

  • 向量 p p p ,它是向量 a a a 的一部分,我们用式子 p = x a p=xa p=xa 表示
  • 向量 e e e,可以用 b − p b-p bp 表示,即: e = b − p e=b-p e=bp
  • e e e p p p 正交,根据上一讲的内容,可以得出:
    a T e = 0 a^{T}e=0 aTe=0
    根据上面 e e e 的解释,可以有如下过程:
    a T e = 0 ⇔ a T ( b − x a ) = 0 a^{T}e=0\Leftrightarrow a^{T}(b-xa)=0 aTe=0aT(bxa)=0

继续拆分,最终可以得到关于常数 x x x 的表达式:
x = a T b a T a x=\frac{a^{T}b}{a^{T}a} x=aTaaTb
又因为 p = x a p=xa p=xa,代入,得:
p = a a T b a t a p=a\frac{a^{T}b}{a^{t}a} p=aataaTb
如果我们将上面的式子继续写成某个矩阵乘 b b b 的形式,可以得到:
p = P ⋅ b , P = a a T a T a p=P\cdot b,P=\frac{aa^{T}}{a^{T}a} p=Pb,P=aTaaaT

至此,我们得到了本讲的一个重要的矩阵 P P P ,这个矩阵至少形式很有意思,实际上也有很多很好的性质:

  • P T = P P^{T} = P PT=P
  • P 2 = P P^{2}=P P2=P

目前我们是对二维平面中的向量得出了结论,当然这个结论是通用的,在接下来的内容中就可以到

为什么进行投影操作

在上一讲中,提到了, A x = b Ax=b Ax=b 无解的时候,如何 “解” 的情况, A x = b Ax=b Ax=b 没有解,也就是说 b b b 不在 A A A 的列空间里,所以,如果为了尽量减少对原本方程的影响,我们可以将 b b b 映射到 A A A 的列空间里, 这样方程就有解了,例如,以三维空间的平面为例:
MIT 线性代数导论 第十五讲:子空间投影_第2张图片
其中, A A A 的列空间是一个二维平面,一组基向量为 a 1 a_{1} a1 a 2 a_{2} a2 b b b 显然不在平面中,这也就对应着 A x = b Ax=b Ax=b 是无解的,所以我们找到 b b b 在平面中的投影 p p p ,使用 p p p 代替,那么方程有解,并且使得方程与原方程“近似”。
因为 p p p 在平面中,所以可以使用基向量表示:
p = x 1 ^ a 1 + x 2 ^ a 2 p=\hat{x_{1}}a_{1} + \hat{x_{2}}a_{2} p=x1^a1+x2^a2
可以简写为:(两个基向量就可以组成平面)
p = A x ^ p=A\hat{x} p=Ax^
接下来考虑到 e e e 是垂直于平面的,由上一讲的内容可以知道,这个向量正交于平面中的所有向量,所以可以表示为:
{ a 1 T ( b − A x ^ ) = 0 a 2 T ( b − A x ^ ) = 0 , ( e = b − A x ^ ) \left\{\begin{matrix} a_{1}^{T}(b-A\hat{x})=0\\ a_{2}^{T}(b-A\hat{x})=0 \end{matrix}\right.,(e=b-A\hat{x}) {a1T(bAx^)=0a2T(bAx^)=0,(e=bAx^)
将上面的式子写成矩阵乘的形式:
( a 1 T a 2 T ) ( b − A x ^ ) = ( 0 0 ) \begin{pmatrix} a_{1}^{T}\\ a_{2}^{T} \end{pmatrix} (b-A\hat{x})=\begin{pmatrix} 0\\ 0 \end{pmatrix} (a1Ta2T)(bAx^)=(00)
上面的式子等价于:(第一个矩阵其实就是矩阵 A A A 的每个列向量转置了)
A T ( b − A x ^ ) = 0 A^{T}(b-A\hat{x})=0 AT(bAx^)=0
推导出这一步,可是说很重要,这个方程跟第一块我们得出方程形式是一致的(所以第一部分的结论可以推广),如果我们进一步分析这个方程,可以有这样的结论:

  • e e e 是在 N ( A T ) N(A^{T}) N(AT) 中的
  • e正交于 C ( A ) C(A) C(A)

继续拆分上面的方程,并写到方程的两边,可以得到:
A T A x ^ = A T b ⇒ x ^ = ( A T A ) − 1 A T b A^{T}A\hat{x} = A^{T}b\Rightarrow \hat{x} = (A^{T}A)^{-1}A^{T}b ATAx^=ATbx^=(ATA)1ATb
将上面的结论代入到 p = A x ^ p = A\hat{x} p=Ax^ 中,可以得到:
p = A x ^ = A ( A T A ) − 1 A t b , , 记 P = A ( A T A ) − 1 A t p = A\hat{x}=A(A^{T}A)^{-1}A^{t}b,,记P=A(A^{T}A)^{-1}A^{t} p=Ax^=A(ATA)1Atb,P=A(ATA)1At
注意这个式子有很多转置还有逆运算,看起来是可以进行化简的,实际上不可以,因为这些矩阵可能不是方阵,也就是说单个来看 A A A 是没有逆的,所以有必要保留这个形式。
对于:
P = A ( A T A ) − 1 A t P=A(A^{T}A)^{-1}A^{t} P=A(ATA)1At
它的形式非常熟悉,因为我们在第一部分已经推导出了形式一致的结论,并且也符合两个结论:

  • P T = P P^{T} = P PT=P
  • P 2 = P P^{2}=P P2=P

这个矩阵 P P P 以及上面的方程 A T A x ^ = A T b A^{T}A\hat{x} = A^{T}b ATAx^=ATb 是之后一些应用的数学依据。

这一部分的过程看起来比较繁琐,实际上只要按照方程一步一步推导,是很容易得出结论的。

最小二乘法(Least Square)

这一讲最后还降到了这个问题,最小二乘法其实就是上面我们得到的几个结论的应用,比如,在拟合一些数据点的时候:
MIT 线性代数导论 第十五讲:子空间投影_第3张图片
假设有三个数据点(1,1)、(2,2)、(3,2),我们要找到一条直线尽可能地描述这三个点的位置,
设最优直线 : b = C + D t b = C+ Dt b=C+Dt
也就是:
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \left\{\begin{matrix} C+D=1\\ C+2D=2\\ C+3D=2 \end{matrix}\right. C+D=1C+2D=2C+3D=2

我们将其写成矩阵乘的形式:
( 1 1 2 2 3 1 ) ( C D ) = ( 1 2 3 ) \begin{pmatrix} 1 & 1\\ 2 & 2\\ 3 & 1 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix} 123121(CD)=123
非常显然,这是没有解的,联系这一节我们讲的,也就是对于无解的 A x = b Ax=b Ax=b 找到最优的的“解”
所以,根据结论,直接将原来的方程转化为:
A T A x ^ = A T b A^{T}A\hat{x} = A^{T}b ATAx^=ATb
这个方程是有解并且最优的。

以上~

你可能感兴趣的:(Linear,Algebra,线性代数)