线性代数 -- 投影矩阵和最小二乘

上一篇文章主要讲了子空间的投影, 其中一个主要的知识点是:投影矩阵, P = A(ATA)-1AT, 这个公式的作用就是投影, 比如P*b就是将向量b投影到距离它的列空间最近的位置;

举两个极端的例子,

  1. 如果向量b位于它自己的列空间中, 那么向量b在其列空间中的投影就是它自己, 即:Pb = b
  2. 如果向量b与它自己的列空间垂直, 那么向量b在其列空间中的投影就是0, 即:Pb = 0

通常情况下, 向量b都可以分解成一个垂直于平行其列空间的向量, 投影的作用就是去除垂直于其列空间的向量, 保存平行于列空间的那个向量

那为什么这个矩阵P会有这种作用呢?

为了简便我将向量b的垂直于自己列空间的分向量记为e, 向量b的平行于自己列空间的分向量记为p。

对于e向量, e是A的转置零空间的向量, 那么Pb就为0(ATb=0)。

对于p向量, p位于列空间中, b2可以表示为Ax, PAx = b。

b = e + p。 p = Pb, e = (I - P)b

下面接着讲一下前文那个求最优直线, 我们的方法是找到每一个点到直线的误差, 然后再将所有的误差平方和相加, 我们要找的就是拥有最小平方和的解[即最小二乘]。这些误差就是Ax - b = e, e为误差。 当e=0时, 意味着误差为零, 也就是所有的点都过这条直线, 但是在这道题里面 这是不可能的。 在这里我先做一下说明, 我将三个点记为:b1, b2, b3; 这三个点在最优直线上的投影点记为:p1, p2, p3; 点和投影点的距离记为:e1, e2, e3。易知每个点和最优直线之间的误差就是e1, e2, e3。 所以误差的平方和就是e12 + e22 + e32。 说明一下为什么要加入投影点p, 因为三个投影点p都在同一条直线上, 所以如果我们可以解出来p就可以知道这一条最优直线了。

下面我们开始解p, x = 这里写图片描述上一篇文章主要讲了子空间的投影, 其中一个主要的知识点是:投影矩阵, P = A(ATA)-1AT, 这个公式的作用就是投影, 比如P*b就是将向量b投影到距离它的列空间最近的位置;

举两个极端的例子,

  1. 如果向量b位于它自己的列空间中, 那么向量b在其列空间中的投影就是它自己, 即:Pb = b
  2. 如果向量b与它自己的列空间垂直, 那么向量b在其列空间中的投影就是0, 即:Pb = 0

通常情况下, 向量b都可以分解成一个垂直于平行其列空间的向量, 投影的作用就是去除垂直于其列空间的向量, 保存平行于列空间的那个向量

那为什么这个矩阵P会有这种作用呢?

为了简便我将向量b的垂直于自己列空间的分向量记为e, 向量b的平行于自己列空间的分向量记为p。 如图:
这里写图片描述
对于e向量, e是A的转置零空间的向量, 那么Pb就为0(ATb=0)。

对于p向量, p位于列空间中, b2可以表示为Ax, PAx = b。

b = e + p。 p = Pb, e = (I - P)b

下面接着讲一下前文那个求最优直线问题:当我们遇到一个方程组,有太多的方程,未知数却只有几个,现在我们要求它的最优解。假设有三个点(1,1),(2,2),(3,2),这三个点拟合直线b=C+Dt。 我们的方法是找到每一个点到直线的误差, 然后再将所有的误差平方和相加, 我们要找的就是拥有最小平方和的解[即最小二乘]。这些误差就是Ax - b = e, e为误差。 当e=0时, 意味着误差为零, 也就是所有的点都过这条直线, 但是在这道题里面 这是不可能的。 在这里我先做一下说明, 我将三个点记为:b1, b2, b3; 这三个点在最优直线上的投影点记为:p1, p2, p3; 点和投影点的距离记为:e1, e2, e3。易知每个点和最优直线之间的误差就是e1, e2, e3。 所以误差的平方和就是e12 + e22 + e32。 说明一下为什么要加入投影点p, 因为三个投影点p都在同一条直线上, 所以如果我们可以解出来p就可以知道这一条最优直线了。

下面我们开始解p, x = 这里写图片描述, 可以使用ATAx = ATb, 带入相关数据可以得到

这里写图片描述
线性代数 -- 投影矩阵和最小二乘_第1张图片ize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
通过上面的矩阵等式可以得到
这里写图片描述
所以就可以求出最优的直线。接下来的e和p就都不难了
这里写图片描述这里写图片描述
满足b = p + e, p和e有什么关系呢? 除了p + e = b 之外, p垂直于e; 这点应该很好理解, 从图像上可以清晰的看出, e还垂直于整个列空间。 这个方法也叫作最小二乘。


你可能感兴趣的:(线性代数)