估计、偏差和方差

  • 本文首发自公众号:RAIS

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

估计

统计的目的是为了推断,大量的统计是为了更好的推断,这就是一种估计,一种根据现有信息对可能性的一种猜测。

  • 点估计:点估计指的是用样本数据估计总体的参数,估计的结果是一个点的数值,因此叫做点估计。这个定义非常宽泛, θ ^ m = g ( x 1 , x 2 , . . . , x m ) \hat{\theta}_m=g(x_1, x_2, ..., x_m) θ^m=g(x1,x2,...,xm),其中几乎对 g 没有什么限制,只是说比较好的 g 会接近真实的 θ。
  • 函数估计:是一种映射关系,如 y = f ( x ) + ϵ y=f(x)+ϵ y=f(x)+ϵ,其中 ϵ 是从 x 中预测不出来的,我们不关心,我们关心的是函数估计 f,函数估计是一种从输入到输出的映射关系。

偏差

估计的偏差定义为: b i a s ( θ ^ m ) = E ( θ m ^ ) − θ bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta bias(θ^m)=E(θm^)θ,这很好理解,估计与实际值之间的距离就是偏差,如果偏差为 0,则 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计,如果在 m 趋近于无穷大时,偏差趋近于 0,则 θ ^ \hat{\theta} θ^ θ \theta θ的渐进无偏。

方差

上面我们用估计量的期望来计算偏差,我们还可以用估计量的方差度量估计的变化程度,我们希望期望这两个值都较小。

对于高斯分布来说,我们有:

  • 样本均值 μ ^ m = 1 m ∑ i = 1 m x ( i ) \hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)} μ^m=m1i=1mx(i) 是高斯均值参数 μ 的无偏估计;
  • 样本方差 σ ^ m 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 \hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2 σ^m2=m1i=1m(x(i)μ^m)2 σ 2 σ^2 σ2 的有偏估计;
  • 无偏样本方差 σ ^ m 2 = 1 m − 1 ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 \hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2 σ^m2=m11i=1m(x(i)μ^m)2 σ 2 σ^2 σ2 的无偏估计;

无偏样本方差显然是比较不错的,但是并不总是最好的,有时候某一些有偏估计也是很好的。比如在机器学习中,均值标准差就非常有用:

S E ( μ ^ m ) = V a r [ 1 m ∑ i = 1 m x ( i ) ] = σ m SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} SE(μ^m)=Var[m1i=1mx(i)] =m σ

或者写成

σ X ‾ = V a r ( X ‾ ) = 1 m V a r ( X ) = σ m σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} σX=Var(X) =m1Var(X) =m σ

均方误差(MSE)

M S E = E [ ( θ ^ m − θ ) 2 ] = B i a s ( θ ^ m ) 2 + V a r ( θ ^ m ) MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) MSE=E[(θ^mθ)2]=Bias(θ^m)2+Var(θ^m)

鱼和熊掌不可得兼,偏差和方差度量着估计量的两个不同误差来源,偏差度量着偏离真实函数或参数的误差,方差度量着数据上任意特定采样可能导致的估计期望的偏差,两个估计,一个偏差大,一个方差大,怎么选择?选择 MSE 较小的,因为 MSE 是用来度量泛化误差的。偏差和方差之和就是均方误差:

估计、偏差和方差_第1张图片

总结

本篇主要介绍了估计、偏差和方差,可以用来正式的刻画过拟合。

  • 本文首发自公众号:RAIS

你可能感兴趣的:(概率论,神经网络,机器学习,深度学习,矩阵)