为什么极大似然估计得到的方差是有偏估计

问题来源

在学习模式分类过程中,我们会用到极大似然估计,最常见的是用它来估计期望和方差,而概率论中有这个结论,就是极大似然估计得到的方差是有偏的,那么为什么呢?

估计的无偏性

如果 θ ^ \hat{\theta} θ^ 是我们对 θ \theta θ 的估计,则满足 E ( θ ^ ) = θ E(\hat\theta)=\theta E(θ^)=θ 时我们说该估计是无偏的.

极大似然估计

假设样本集 D D D中有 n n n个样本: x 1 , x 2 , … x n x_1,x_2,\ldots x_n x1,x2,xn.我们需要估计的参数是 θ \theta θ,由于这些样本是独立抽取的,所以有下式成立:
p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) p(D|\theta)=\prod_{k=1}^{n}p(x_k|\theta) p(Dθ)=k=1np(xkθ)
为简化计算,使用对数似然函数:
l ( θ ) = ln ⁡ ( p ( D ∣ θ ) ) = ∑ k = 1 n ln ⁡ ( p ( x k ∣ θ ) l(\theta)=\ln(p(D|\theta))=\sum_{k=1}^n \ln (p(x_k|\theta) l(θ)=ln(p(Dθ))=k=1nln(p(xkθ)
我们要求其极大值,对其求梯度,梯度为零的地方就是可能的极大值处:
∇ θ = ∑ k = 1 n ∇ θ ln ⁡ ( p ( x k ∣ θ ) ) \nabla_\theta=\sum_{k=1}^{n}\nabla_\theta \ln(p(x_k|\theta)) θ=k=1nθln(p(xkθ))
对于一维的正态分布,有:
ln ⁡ p ( x ) = − 1 2 2 π σ − 1 2 σ ( x − μ ) 2 \ln p(x)= -\frac{1}{2}2\pi\sigma-\frac{1}{2\sigma}(x-\mu)^2 lnp(x)=212πσ2σ1(xμ)2
这里我们假设 μ \mu μ 已知,使用样本估计 σ \sigma σ :
∇ σ ln ⁡ p ( x ) = − 1 2 σ + ( x k − μ ) 2 2 σ 2 \nabla _\sigma \ln p(x)=-\frac{1}{2\sigma}+\frac{(x_k-\mu)^2}{2\sigma^2} σlnp(x)=2σ1+2σ2(xkμ)2
则极值条件为:
− ∑ k = 1 n 1 σ ^ + ∑ k = 1 n ( x k − μ ) 2 σ ^ 2 = 0 -\sum_{k=1}^{n}\frac{1}{\hat{\sigma}}+\sum_{k=1}^{n}\frac{(x_k-\mu)}{2\hat{\sigma}^2}=0 k=1nσ^1+k=1n2σ^2(xkμ)=0
可得方差的极大似然估计为:
σ ^ 2 = 1 n ∑ k = 1 n ( x k − μ ) 2 \hat{\sigma}^2=\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2 σ^2=n1k=1n(xkμ)2

方差估计的有偏性

随机变量的和的均值和方差

x 1 , x 2 , … , x n x_1,x_2,\ldots,x_n x1,x2,,xn n n n个独立同分布的随机变量 Y = x 1 + x 2 + … + x n Y=x_1+x_2+\ldots+x_n Y=x1+x2++xn,有:
E ( x i ) = μ , D ( x i ) = σ 2 , E ( x i 2 ) = σ 2 + μ 2 , i = 1 , 2 , . . . n E(x_i)=\mu,D(x_i)=\sigma^2,E(x_i^2)=\sigma^2+\mu^2, i=1,2,...n E(xi)=μ,D(xi)=σ2,E(xi2)=σ2+μ2,i=1,2,...n E ( Y ) = n μ , D ( Y ) = n σ 2 , E ( Y 2 ) = D ( Y ) + E 2 ( Y ) = n σ 2 + n 2 μ 2 E(Y)=n\mu,D(Y)=n\sigma^2,E(Y^2)=D(Y)+E^2(Y)=n\sigma^2+n^2\mu^2 E(Y)=nμ,D(Y)=nσ2,E(Y2)=D(Y)+E2(Y)=nσ2+n2μ2

证明有偏性

我们对一维高斯分布的方差的估计为 σ ^ 2 = 1 n ∑ k = 1 n ( x k − μ ) 2 \hat{\sigma}^2=\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2 σ^2=n1k=1n(xkμ)2 它的期望为:

E ( σ ^ 2 ) = E { 1 n ∑ k = 1 n ( x k − μ ) 2 } = E { 1 n ∑ k = 1 n x k 2 − μ 2 } = 1 n ∑ k = 1 n E ( x k 2 ) − E ( μ 2 ) = ( σ 2 + μ 2 ) − E { ( x 1 + x 2 + … + x n n ) 2 } = ( σ 2 + μ 2 ) − 1 n 2 E ( Y 2 ) = ( σ 2 + μ 2 ) − 1 n 2 ( n 2 μ 2 + n σ 2 ) = n − 1 n σ 2 \begin{aligned} E(\hat\sigma^2)&=E\{\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2\}\\ & =E\{ \frac{1}{n}\sum_{k=1}^{n}x_k^2-\mu^2\} \\ &= \frac{1}{n} \sum_{k=1}^{n} E(x_k^2)-E(\mu^2)\\ &=(\sigma^2+\mu^2)-E\{ (\frac{x_1+x_2+\ldots+x_n}{n})^2 \} \\ &=(\sigma^2+\mu^2)-\frac{1}{n^2}E(Y^2)\\ &=(\sigma^2+\mu^2)-\frac{1}{n^2}(n^2\mu^2+n\sigma^2)\\ &=\frac{n-1}{n}\sigma^2 \end{aligned} E(σ^2)=E{n1k=1n(xkμ)2}=E{n1k=1nxk2μ2}=n1k=1nE(xk2)E(μ2)=(σ2+μ2)E{(nx1+x2++xn)2}=(σ2+μ2)n21E(Y2)=(σ2+μ2)n21(n2μ2+nσ2)=nn1σ2
可知,该估计是有偏的。

结语

  • 以上内容部分摘抄自 《模式分类》,机械工业出版社,中信出版社,Richard O. Duda Peter E.Hart David G.Stock 著,李宏东 姚天翔 等译

  • 公式推导纯属个人理解,敬请批评指正。

你可能感兴趣的:(机器学习)