我们知道,投影矩阵是 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT
若 b b b在 C ( A ) C(A) C(A)中, P b = b Pb=b Pb=b, 因为 b b b可以写成 A A A各列的线性组合, 不妨令 b = A x b=Ax b=Ax, 则 P b = A [ ( A T A ) − 1 A T A ] x = A x = b Pb=A[(A^TA)^{-1}A^TA]x=Ax=b Pb=A[(ATA)−1ATA]x=Ax=b
若 b b b垂直于 C ( A ) C(A) C(A)中, P b = 0 Pb=0 Pb=0, 因为 b ∈ N ( A T ) b \in N(A^T) b∈N(AT), A T b = 0 A^Tb=0 ATb=0
设误差向量 e e e是 b b b与投影到 C ( A ) C(A) C(A)后得到的向量 p p p的误差, b − p = e , b = p + e b-p=e, b=p+e b−p=e,b=p+e, 由投影的几何含义可知, e ⊥ C ( A ) e \perp C(A) e⊥C(A), 即 e ∈ N ( A T ) e \in N(A^T) e∈N(AT), 而 p = P b p=Pb p=Pb, 所以 e = ( I − P ) b e = (I-P)b e=(I−P)b, 所以 I − P I-P I−P也是一个投影矩阵, 同样具有对称性和幂等性.
对于已知点集 X , y {X, y} X,y, X X X为 m × ( n + 1 ) m \times (n+1) m×(n+1)维矩阵, X X X的 n + 1 n+1 n+1列全为 1 1 1, y y y是 m m m维向量,{X, y}表示共有 m m m个点分布在 n + 1 n+1 n+1维空间中,.
最小二乘是为了在空间中找出一个超平面 X w Xw Xw(其中 w w w为 n + 1 n+1 n+1维向量, w n + 1 = b w_{n+1}=b wn+1=b, b b b为偏移量), 使得误差 1 2 ∣ ∣ X w − y ∣ ∣ 2 \frac{1}{2}||Xw-y||^2 21∣∣Xw−y∣∣2最小.
常常我们找不出一个超平面使所有的点都落在超平面上, 也就是说, 常常 y y y不在 C ( X ) C(X) C(X)中, X w = y Xw=y Xw=y无解, 不过我们可以求最小二乘解.
X T X w = X T y X^TXw=X^Ty XTXw=XTy
令 y ^ = X w \hat y=Xw y^=Xw, e = X w − y = y ^ − y e=Xw-y=\hat y - y e=Xw−y=y^−y, 我们发现, y ^ ∈ C ( X ) \hat y \in C(X) y^∈C(X), e + y ^ = y e + \hat y = y e+y^=y, 我们的最优化目标是 min ∣ ∣ e ∣ ∣ 2 \text{min}||e||^2 min∣∣e∣∣2, 也就是说, 要找到 y y y与 C ( X ) C(X) C(X)中的一个向量 p p p, 使 ∣ ∣ y − p ∣ ∣ 2 ||y-p||^2 ∣∣y−p∣∣2最小, 显然 y − p ⊥ C ( A ) y-p \perp C(A) y−p⊥C(A)时 ∣ ∣ y − p ∣ ∣ 2 ||y-p||^2 ∣∣y−p∣∣2最小, 也就是说 p p p是 y y y在 C ( A ) C(A) C(A)上的投影. 即, 当 y ^ \hat y y^是 y y y在 C ( A ) C(A) C(A)上的投影 p p p时, ∣ ∣ e ∣ ∣ 2 ||e||^2 ∣∣e∣∣2最小, 而 X T X w = X T y X^TXw=X^Ty XTXw=XTy中求解出的 w w w, 恰好使 X w = p Xw=p Xw=p. 当 y ^ \hat y y^是 y y y在 C ( X ) C(X) C(X)上的投影 p p p时, e e e恰好是 y y y在 N ( X T ) N(X^T) N(XT)上的投影.
如果我们用微积分中的方法, 则对 w w w求偏导令其等于零.
∂ ∂ w ( X w − y ) T ( X w − y ) = 2 X T ( X w − y ) = 0 \frac{\partial}{\partial w}(Xw-y)^T(Xw-y)=2X^T(Xw-y)=0 ∂w∂(Xw−y)T(Xw−y)=2XT(Xw−y)=0
整理亦得到 X T X w = X T y X^TXw=X^Ty XTXw=XTy
真的是非常奇妙呢.
最后提到, m × n m \times n m×n维矩阵 A A A各列线性无关, 则 A T A A^TA ATA可逆, 上上一节证过了, r a n k ( A ) = r a n k ( A T A ) rank(A)=rank(A^TA) rank(A)=rank(ATA), 又知道 r a n k ( A ) = n rank(A)=n rank(A)=n, 所以 r a n k ( A T A ) = n rank(A^TA)=n rank(ATA)=n, A T A A^TA ATA满秩.
还提到相互垂直的单位向量一定线性无关, 不妨令 A A A的各列是那些相互垂直的单位向量, 解 A x = 0 Ax=0 Ax=0, 设 a i a_i ai为 A A A的第 i i i列, 则 a i T A x = 0 a_i^TAx=0 aiTAx=0, 也就是 a i T a i x i = 0 a_i^Ta_ix_i=0 aiTaixi=0, 所以 x i = 0 x_i=0 xi=0.