最大似然估计的一些优点

最大似然估计的一些优点

主要内容:
- asymptotic correctness
- asymptotic normality
- efficiency

随机变量 X 服从分布 p(x|θ) θ 为参数。在 n 次独立重复实验中产生观测值 x1,,xn 。可以选择 θ^ 作为 θ 的估计值,使似然函数 L(θ^)=ni=1p(xi|θ^) 达到最大值。

asymptotic correctness

随着样本数 n 增多,估计值 θ^ 会最终趋向于真实值 θ
使似然函数达到最大值,等价于使

1nlogL(θ^)constant
达到最大值
1nlogL(θ^)constant=1ni=1nlogp(xi|θ^)p(x|θ)logp(x|θ)dxnp(x|θ)logp(x|θ^)dxp(x|θ)logp(x|θ)dx=p(x|θ)logp(x|θ^)p(x|θ)dx=D(p(x|θ)p(x|θ^))0

所以,只有在 θ^=θ 时,才能取到最大值。

asymptotic normality

估计 θ^=θ^(X1,,Xn) 的抽样分布服从正态分布。

由于 n 很大, θ^ 很接近 θ ,可以对等式进行泰勒展开。(网站崩溃了。。。下面的没有保存成功。。全要重新再写一遍。。。不过发现了之前的一个错误!)

0=ddθlogL(θ^)=i=1nddθlogp(Xi|θ^)=i=1nddθlogp(Xi|θ)+(θ^θ)i=1nd2dθ2logp(Xi|θ)+O((θθ^)2)=i=1nddθlogp(Xi|θ)+(θ^θ)np(x|θ)d2dθ2logp(x|θ)dx+O((θθ^)2)=i=1nddθlogp(Xi|θ)(θ^θ)nI+O((θθ^)2)

其中 I 为Fisher Information
(θ^θ)=1nIi=1nddθlogp(Xi|θ)+negligibleterms

根据中心极限定理,等式右边服从正态分布 N(0,1nI1)
均值:
μ=p(x|θ)(ddθlogp(x|θ))dx=ddθp(x|θ)dx=ddθp(x|θ)dx=ddθ1=0

方差:
σ2=(1nI)2nVar[ddθlogp(X|θ)]=(1nI)2np(x|θ)(ddθlogp(x|θ)μ)2dx=(1nI)2nI=1nI

因此 θ^N(θ,1nI1)

efficiency

最大似然估计在所有无偏估计中具有最小方差。
根据Cramer-Rao bound:

Var(θ^)1nI

其中 θ^ 是任意的无偏估计, I 是Fisher Information
所以,最大似然估计达到了下界。
参考资料

An Introduction to Maximum Likelihood Estimation and Information Geometry

你可能感兴趣的:(最大似然估计的一些优点)