最小二乘法与伪逆矩阵

一、简介

        最小二乘法是一种数学优化技术。通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并是得这些求得的数据与实际数据之间误差的平方和最小。

二、最小二乘法拟合直线的原理

        1)假设存在n个坐标点,他们的坐标在笛卡尔坐标系下可以表示为:

(x_{i},y_{i}), 0\leq i\leq n

        最小二乘法拟合直线,就是要找到一条直线L,使得这n个点与直线L的距离残差平方和最小。

        2)假设存在一条直线L1,采用斜截式(不可以描述与x轴垂直的直线)描述该直线方程为:

y_{L1}=kx+b

        由于两点确定一条直线,因此为了确定这一直线方程,至少需要两组数据(即n=2),但是这样的直线对于实际的测量是不准确的,当n>2的时候在理论上求解因为条件超出了方程未知数,因此是无解的,所以叫做超定方程。由于理论值为:

y=kx_{i}+b

        将单点数据代入,残差即为:

y_{i}-y=y_{i}-kx_{i}-b

        根据最小二乘方程可知:

minf=\sum_{n=1}^{n}(y_{i}-k_{i}-b)^2

        其实这里应该证明上述公式是否存在最小值,根据方程可以看出,对于单变量而言,这是一个开口向上的抛物线。为例求解方程的最小值,一种方法是对方程进行求导,导数为0的地方就是极值,对于抛物线方程而言也就是最值。这里的变量有两个,一个是k另一个是b,因此对该方程求偏导:


\left\{\begin{matrix} \frac{\partial f}{\partial k}=\sum_{i=1}^{n}[(y_{i}-kx_{i}-b)x_{i}]=0\\ \frac{\partial f}{\partial b}=\sum_{i=1}^{n}(y_{i}-kx_{i}-b)=0 \end{matrix}\right.

        将上式进行展开:

\left\{\begin{matrix} \sum_{i=1}^{n}(x_{i}y_{i})-k\sum_{i=1}^{n}(x_{i}^2)-b\sum_{i=1}^{n}(x_{i})=0\\ \sum_{i=1}^{n}(y_{I})-k\sum_{i=1}^{n}(x_{i})-nb =0\end{matrix}\right.

        记:

A=\sum_{i=1}^{n}(x_{i}^2),B=\sum_{i=1}^{n}(x_{i}),C=\sum_{i=1}^{n}(x_{i}y-{i}),D=\sum_{i=1}^{n}(y_{i})

        得:

\left\{\begin{matrix} Ak+bB=C\\ Bk+nb=D \end{matrix}\right.

\left\{\begin{matrix} k=\frac{Cn-BD}{An-BB}\\ b=\frac{AD-CB}{An-BB} \end{matrix}\right.

三、伪逆矩阵

        1)矩阵的秩

        对于矩阵A,如果存在一个矩阵B,使得AB=BA=E,其中E为与A,B同维数的单位阵,就称A为可逆矩阵(或者称A可逆),并称B是A的逆矩阵。

        2)矩阵的伪逆

        奇异矩阵(行列式等于0的方阵)和非方阵没有逆矩阵,但可以有伪逆矩阵。

        满足A^LA=E,但不满足AA^L=E的矩阵A^L称为矩阵A的左逆矩阵。类似地,满足AA^R=E,但不满足A^RA=E的矩阵A^R称为矩阵A的右逆矩阵。

        仅当m\geq n时,列满秩,矩阵A_{m*n}有左逆矩阵,A^L=(A^TA)^{-1}A^T

        当n\geq m时,行满秩,矩阵A_{m*n}有右逆矩阵,A^R=A^T(A^TA)^{-1}

        当n=m时,A_{m*n}的秩为r\leq m=n,对A进行奇异值分解A=UDV^T

        A的逆矩阵为A^+=VD^+U^T

四、广义逆矩阵

        1)当m>n时,此时A有左逆矩阵,且A_{L}^{+}=(A^TA)^{-1}A^T

        2)当m<n时,此时A有右逆矩阵,且A_{R}^+=A^T(AA^T)^{-1}

        3)伪逆矩阵与最小二乘法之间的关系:

        记f(x)=||Ax-y||^2,要使f(x)取到极值,则需要{f(x)}'=0

        对f(x)求偏导:

\frac{\partial f(x)}{\partial x}=\frac{\partial }{\partial x}||Ax-y||^2=2A^T(Ax-y)=2(A^TAx-A^Ty)

        令:


A^TAx=A^Ty

        则:

(A^TA)^{-1}A^TAx=(A^TA)^{-1}A^Ty

Inx=(A^TA)^{-1}A^Ty

x=(A^TA)^{-1}A^Ty

五、伪逆矩阵意义

        对于n元线性方程组AX=B,其解有三种情况:解唯一、无穷解、无解。

        1)线性方程组有无穷解时,必有R(A)=R(AB)

X^0=A^RB

        A^R是右逆矩阵。X^0是所有满足AX=B的解中最靠近原点的。 

        2)线性方程组无解时,必有R(A)\neq R(AB)。因为B不在A的列空间中,此时只能在A的列空间找到唯一一个B之间的欧氏距离最小的B^{'}B^{'}=AX^0X^0是可以使范数||AX-B||最小化的解。

        满足条件:||AX-B||\geq ||AX^0-B||

        X^0不是传统意义上的解,因为不满足AX=B。

        构造:X^0=A^LB

        A^L是左逆矩阵。X^0是可使||AX-B||最小化的近似解。

        可以看出,欧氏空间的范数在伪逆的求解中起到度量误差和度量长度的限制作用,伪逆矩阵是在满足几何约束的条件下的最优解,这也是伪逆矩阵的意义所在,例如在最小能量系统中,可使用伪逆求得问题的最优解。

你可能感兴趣的:(线性代数,线性代数)