线性代数笔记3:向量投影


向量投影是线性代数中很重要的应用,用于找到向量到目标投影空间的投影向量。这是下一节线性回归的基础。

Ax=b A x = b 有解时

当计算线性方程组 Ax=b A x = b 有解时, b b 就在 C(A) C ( A ) 的子空间中,则 Ax=b A x = b C(AT) C ( A T ) 中有唯一解。我们考虑 x x 的投影。
αRn α ∈ R n Ax=b A x = b 的解,则 α=αr+αnαrC(AT)αnN(A) α = α r + α n , α r ∈ C ( A T ) , α n ∈ N ( A ) 。则:

αrαC(AT) α r 是 α 在 C ( A T ) 的 投 影 。

αnαN(A) α n 是 α 在 N ( A ) 的 投 影 。

Ax=b A x = b 无解时

当计算线性方程组 Ax=b A x = b 时, 它可能是无解的,此时我们可以考虑求 x^Rn x ^ ∈ R n ,使得|| Ax^b A x ^ − b || 最小或极小?这就意味着当 bC(A) b ∉ C ( A ) 时,我们需要求解 C(A) C ( A ) 上距离 b b 最近的点 Ax^ A x ^ , 它就是 b b C(A) C ( A ) 上的投影点。这对于我们理解最小二乘法很有帮助,具体请参考下一章。

以三维空间为例,目标投影空间可能是线,也可能是面。投影的实质就是找一个函数,从而使得 P(B)=b P ( B ) = b ,也就找到了 B B 在某一维度的映射。类似的,在线性代数中,我们需要找到投影矩阵 P P ,使得 PbC(A) P b ∈ C ( A )

投影矩阵 P P

投影矩阵 P P ,顾名思义,就是利用矩阵 P P ,将向量 b b 投影到所需的”空间“中,设投影点为 p p ,则误差向量 e=bp e = b − p

在直线上的投影

b b 在直线 a a 上的投影向量 p p .

已知 p+e=b,ea,p=ta(tR) p + e = b , e ⊥ a , p = t a ( t ∈ R )
eaaT(bta)=0t=aTbata(a0) ∴ e ⊥ a → a T ( b − t a ) = 0 → t = a T b a t a ( a ≠ 0 )
b b 在直线 a a 上的投影向量为 (aTbata)a=p ( a T b a t a ) a = p . (a,b表示相应列向量)

投影向量 p=(aTbata)a=aTaata)b p = ( a T b a t a ) a = a T a a t a ) b

我们称 aTaata a T a a t a 为投影矩阵 P P .

在平面上的投影

给定 vR3 v ∈ R 3 ,求 v v 在平面 π=C(A) π = C ( A ) 上的投影 p p .

α1,α2 α 1 , α 2 是平面 π π 上两无关向量,即 π=C(A) π = C ( A ) 的一组基。
p=Ax^ p = A x ^ ,则 e=vAx^ e = v − A x ^ 垂直于平面 π π ,即其属于 A A 的左零空间。
AT(AX^v)=0 ∴ A T ( A X ^ − v ) = 0 , 即 x^ x ^ ATAx=ATv A T A x = A T v 的解。
A ∵ A 的列向量线性无关,即 ATA A T A 是可逆矩阵
x^=(ATA)1ATvp=A(ATA)1ATv ∴ x ^ = ( A T A ) − 1 A T v → p = A ( A T A ) − 1 A T v .

我们称 A(ATA)1AT A ( A T A ) − 1 A T 为投影矩阵 P P .

一般情形

A A m×n m × n 矩阵,设 bRm b ∈ R m ,求 b b C(A) C ( A ) 上的投影 p p ?

pC(A)x^Rn,Ax^=p p ∈ C ( A ) ⟺ ∃ x ^ ∈ R n , A x ^ = p
e=bpC(A)eN(AT) ∵ e = b − p ⊥ C ( A ) ↔ e ∈ N ( A T )
ATe=AT(bAx^)=0.p=Ax^=A(ATA)1ATb ∴ A T e =⇒ A T ( b − A x ^ ) = 0. ⟹ p = A x ^ = A ( A T A ) − 1 A T b
这里需要注意一点: ATAx=ATb A T A x = A T b 总有解(无论 A A 是否列满秩)
这是因为 C(AT)=C(ATA),ATbC(AT)=C(ATA) C ( A T ) = C ( A T A ) , A T b ∈ C ( A T ) = C ( A T A ) ,所以总能找到这样的 x^ x ^ 使得 x^=A(ATA)1AT x ^ = A ( A T A ) − 1 A T

投影矩阵 P P 的性质

  • A A 的列向量线性无关(列满秩),则矩阵 ATA A T A 可逆,投影矩阵 P=A(ATA)1AT P = A ( A T A ) − 1 A T 满足
    P2=P,PT=P P 2 = P , P T = P

从直观上,向量 b b 经过一次投影到平面 A A 上后再经过相同的一次投影仍然在平面 A A 上,因此投影矩阵 P2 P 2 P P 的效果是一样的,因此 P2=P P 2 = P
数学推理:

P2=(A(ATA)1AT)(A(ATA)1AT))=A(ATA)1(ATA)(ATA)1AT=A(ATA)1AT=P P 2 = ( A ( A T A ) − 1 A T ) ( A ( A T A ) − 1 A T ) ) = A ( A T A ) − 1 ( A T A ) ( A T A ) − 1 A T = A ( A T A ) − 1 A T = P

  • C(P)=N(IP),N(P)=C(IP) C ( P ) = N ( I − P ) , N ( P ) = C ( I − P )
    P2=P ∵ P 2 = P

    P(IP)=0C(IP)N(P) ∴ P ( I − P ) = 0 ⟹ C ( I − P ) ⊂ N ( P )

    αN(P)Pα=0α=(IP)α 设 α ∈ N ( P ) , 则 P α = 0 ⟹ α = ( I − P ) α

    αC(IP)N(P)C(IP) ∴ α ∈ C ( I − P ) ⟹ N ( P ) ⊂ C ( I − P )

    综上: N(P)=C(IP) N ( P ) = C ( I − P )
    同理 C(P)=N(IP) C ( P ) = N ( I − P )

欢迎关注我的个人博客。

你可能感兴趣的:(linear,algebra,数据科学的线性代数基础)