5.ESL笔记:线性模型与高斯-马尔科夫定理

统计学中有一个非常著名的结果:在所有线性无偏估计中,模型参数 β β 的最小二乘估计拥有最小的方差。不过事实上,使用参数的无偏估计并不一定是最好的。有时候我们可能需要采用有偏估计,比如脊回归。

我们考虑参数 β β 的一个线性组合 θ=aTβ θ = a T β 。举个例子, f(x0)=xT0β f ( x 0 ) = x 0 T β 就属于这种形式。则 aTβ a T β 的最小二乘估计为:

θ^=aTβ^=aT(XTX)1XTY θ ^ = a T β ^ = a T ( X T X ) − 1 X T Y

如果数据项 X X 是固定的,那么这个公式就可以写成关于 y y 的线性函数 cT0y c 0 T y 。若我们已知线性模型是正确的,那么 aTβ^ a T β ^ 就是无偏的,因为

E(aTβ^)=E(aT(XTX)1XTy)=aT(XTX)1XXβ=aTβ E ( a T β ^ ) = E ( a T ( X T X ) − 1 X T y ) = a T ( X T X ) − 1 X X β = a T β

高斯-马尔科夫定理证明,如果我们还有任何其他的关于 aTβ a T β 的线性无偏估计 θ^=cTy θ ^ = c T y ,即 E(cTy)=aTβ E ( c T y ) = a T β ,则:

Var(aTβ^)Var(cTy) V a r ( a T β ^ ) ≤ V a r ( c T y )

我们考虑一下关于 θ θ 的估计 θ^ θ ^ 的均方差:

MSE(θ^)=E(θ^θ)2=E(θ^22θ^θ+θ2)=E(θ^2)2θE(θ^)+θ2=Var(θ^)+E2(θ^)2θE(θ^)+θ2=Var(θ^)+[E(θ^)θ]2 M S E ( θ ^ ) = E ( θ ^ − θ ) 2 = E ( θ ^ 2 − 2 θ ^ θ + θ 2 ) = E ( θ ^ 2 ) − 2 θ E ( θ ^ ) + θ 2 = V a r ( θ ^ ) + E 2 ( θ ^ ) − 2 θ E ( θ ^ ) + θ 2 = V a r ( θ ^ ) + [ E ( θ ^ ) − θ ] 2

在这个式子里,第一项是估计的方差,第二项是偏差平方。高斯-马尔科夫定理意味着在所有线性无偏估计中,最小二乘估计拥有最小的MSE。(注:很容易想象,因为它没有bias)。但是,我们也很容易找到一个有偏估计,而获得更小的MSE。这样的估计用少量的偏差换取了方差的大幅度降低。任何将最小二乘所得的系数缩小、变零的方法都可能导致一个有偏估计。从实际应用角度来看,大部分模型都会对真实情况添加一些曲解,因此都是有偏的。我们在选择模型的时候,事实上是在偏差和方差之间做出平衡。

此外,MSE还与预测准确度紧密相关。我们假设对于新样本我们这么去预测:

Y0=f(x0)+ϵ0 Y 0 = f ( x 0 ) + ϵ 0

那么预测误差的数学期望(f是一个线性函数)可以表达为:

E(Y0f^(x0)2)=σ2+E((x0)Tf(x0))2=σ2+MSE(f^(x0)) E ( Y 0 − f ^ ( x 0 ) 2 ) = σ 2 + E ( ( x 0 ) T − f ( x 0 ) ) 2 = σ 2 + M S E ( f ^ ( x 0 ) )

因此,我们的预测误差和MSE相差的仅仅是常数 σ σ ^2。这个就是新的预测值 y0 y 0 的方差了。

你可能感兴趣的:(书籍,统计,机器学习)