最小二乘的几何解释

最小二乘主要用来做线性回归。

数据集形式为:(X,T),X ,T 分别代表自变量与因变量。用矩阵来表示训练数据时,往往每行代表一个数据。假设w 是回归系数,与x的维数相同。那么最小二乘估计形式为:L(W) = \sum \left \| W^{^{T}}X^{_{i}}-T_{i} \right \|    ,L是loss function,包含了训练数据的所有误差,把误差分散在每个训练数据上。L(W)展开后的形式为:

L(W)=W^{T}X^{T}XW-2W^{T}X^{T}Y+Y^{^{T}}Y。对展开式关于W求导后令倒数为0,得到 W= (X^{T}X)^{-1}X^{T}Y     这就是回归系数的解析解。

下面我们看下几何解释:

如果我们对矩阵X以列的形式看,那它就形成一个p 维的子空间。由于噪声等影响,Y是一般是不在p维子空间上的。另外 ,考虑N维空间,坐标轴由t{_{n}}_{_{}}表示,因此 t = (t_{1},t_{2},...,t_{N})^{T}是这个空间的一个向量。有N个点估计得到的基函数\phi _{j}(x_{n})同样可以使用基函数表示出来,记为\varphi _{j}, 其中j 表示\Phi的第j列,同时,\o (x_{n})代表\Phi的第n行。如果基函数的数目M小于样本数目N, 那么M个向量\o (x_{n})就会张成一个M维的线性空间。我们定义y是一个N维向量,其第n个元素被定义为y(x_{n},w)。因为y 是由\varphi _{j}线性组成的二值向量,它可以落在任何M维子空间的任何位置。平方和误差等价于(1/2缩放)y与t之间的欧式距离。寻找w的最优解的过程就是在子空间S中寻找一个一个向量y使其最接近 t。也就是说,y是t在子空间S上的正交投影。故有 X^{T}(Y-XW)=0   求出w的形式与上面解析解相同,只不过他将误差分散在跟个样本的每个维度直接。

 

                                                                           图来源于PRML

                                                  最小二乘的几何解释_第1张图片

 

一般来说,直接求解可能会比较困难,尤其是当\Phi ^{T}\Phi接近奇异的时候。特别地,当出现两个以上的\varphi _{j}为线性相关,或者是近似线性相关时,所对应的解会有比较大的绝对值。

 

 

 

 

你可能感兴趣的:(最小二乘的几何解释)