统计学中有一个非常著名的结果:在所有线性无偏估计中,模型参数 β β 的最小二乘估计拥有最小的方差。不过事实上,使用参数的无偏估计并不一定是最好的。有时候我们可能需要采用有偏估计,比如脊回归。
我们考虑参数 β β 的一个线性组合 θ=aTβ θ = a T β 。举个例子, f(x0)=xT0β f ( x 0 ) = x 0 T β 就属于这种形式。则 aTβ a T β 的最小二乘估计为:
如果数据项 X X 是固定的,那么这个公式就可以写成关于 y y 的线性函数 cT0y c 0 T y 。若我们已知线性模型是正确的,那么 aTβ^ a T β ^ 就是无偏的,因为
高斯-马尔科夫定理证明,如果我们还有任何其他的关于 aTβ a T β 的线性无偏估计 θ^=cTy θ ^ = c T y ,即 E(cTy)=aTβ E ( c T y ) = a T β ,则:
我们考虑一下关于 θ θ 的估计 θ^ θ ^ 的均方差:
在这个式子里,第一项是估计的方差,第二项是偏差平方。高斯-马尔科夫定理意味着在所有线性无偏估计中,最小二乘估计拥有最小的MSE。(注:很容易想象,因为它没有bias)。但是,我们也很容易找到一个有偏估计,而获得更小的MSE。这样的估计用少量的偏差换取了方差的大幅度降低。任何将最小二乘所得的系数缩小、变零的方法都可能导致一个有偏估计。从实际应用角度来看,大部分模型都会对真实情况添加一些曲解,因此都是有偏的。我们在选择模型的时候,事实上是在偏差和方差之间做出平衡。
此外,MSE还与预测准确度紧密相关。我们假设对于新样本我们这么去预测:
那么预测误差的数学期望(f是一个线性函数)可以表达为:
因此,我们的预测误差和MSE相差的仅仅是常数 σ σ ^2。这个就是新的预测值 y0 y 0 的方差了。