最大似然估计(MLE)

1、前言

MLE:MVU估计量的一种替代形式。在MVU估计量不存在或者存在但无法求解情况下,MLE十分有效。它是居于最大似然原理的估计,是最通用的获取实用估计的一种方法。

MLE的特点:当观测数据足够多时,其性能是最优的,特别是它的近似率极高,因此非常接近MVU估计量。其近似的本质就是对足够多的数据记录,MLE具有渐进有效性(即可达CRLB)。

标量参数的MLE定义:对于固定的 x,使 p(x;\theta ) 最大的 \theta 值,最大化是在 \theta 允许的范围内求取的。

MLE原理:对某个给定 \theta ,x 落在一个小区域的概率是 p(x;\theta )dx 。

2、MIL性质

MLE对足够多的数据记录,该估计量是无偏的,有效的(可达到CRLB),并且具有高斯PDF。

即对MLE估计量的分布可表示为 ( ‘~ ’ 表示渐进分布于)

                                                          \hat{\theta }\sim N(\theta ,I^{-1}(\theta ))

这个性质构成了MLE准最佳性的基础,但是存在一个问题:预先很难知道,数据量 N 取多大才使得性质成立。

3、MLE的渐进特性

若数据 x 的PDF p(x;\theta ) 满足某些“正则”条件,那么对足够多的数据,未知参数 \theta 的MLE服从

                                                          \hat{\theta }\sim N(\theta ,I^{-1}(\theta ))

I(\theta ) 是Fish信息。Fish的意义和定义:https://www.zhihu.com/question/26561604

此处正则条件:i>要求对数似然函数的导数存在;ii>要求Fish信息不为零。

4、变换参数的MLE

有些请况下,更希望估计 \theta 的一个函数,比如像 \alpha =\theta^{2} 这样的。不过需要注意以下两点

1)如果参数 \alpha =g(\theta) ,\alpha 与 \theta 是一一映射的,则可由 \alpha =g(\theta) 的反函数  \theta =g^{-1}(\alpha) 带入p(x;\theta ) 得到p(x;g^{-1}(\alpha ))似然函数的最大来求得 \alpha 的估计。

2)如果参数 \alpha =g(\theta) ,\alpha 与 \theta 不是一一映射的,则将所有可能的 \theta =g^{-1}(\alpha) 带入 p(x;\theta ),然后在对应的 \alpha 的取值范围下,求取使 p(x;g^{-1}(\alpha )) 最大的 \alpha 的估计。

由这两点可以总结得到MLE的不变性:参数 \alpha =g(\theta) 的MLE由下面的公式给出(其中PDF是 \theta 的函数)

          \alpha 与 \theta 是一一对应的:                                  \hat{\alpha }=g(\hat{\theta})

          \alpha 与 \theta 不是一一对应的:           取使 p(x;g^{-1}(\alpha )) 最大的估计值 \hat{\alpha } (注意配合\alpha 的取值范围进行估计)

5、求MLE的方法

1)一般方法

         求总样本的似然函数 p(x;\theta ) ,也可以进一步表示成对数似然形式 lnp(x;\theta ) ;然后对对数似然PDF求估计参数的偏导  \frac{\partial lnp(x;\theta )}{\partial \theta } ,并令其等于零来求取MLE估计 \hat{\theta } 。注意: 若 这样求取的 \hat{\theta } 不再 \theta 范围内时,那么在 \theta 的允许范围区间取找 \hat{\theta } 使 p(x;\theta )或者 lnp(x;\theta ) 最大即可。

2)特殊方法(一般用于无法直接求解 \frac{\partial lnp(x;\theta )}{\partial \theta }=0 的请况)

        i> Newton-Raphson方法(迭代法)

首先令                                             g(\theta )=\frac{\partial lnp(x;\theta )}{\partial \theta }

然后对 g(\theta )=0 的解进行一个初始猜测值 \theta_{0} 。假设 g(\theta ) 在 \theta_{0} 附近是近似线性的,则 g(\theta ) 近似表示为

                                             g(\theta )=g(\theta _{0})+\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{0}}(\theta -\theta _{0})

随后由利用这个式子求解零值所对应的 \theta_{1} ,\theta_{1} 为

                                                            \theta _{1}=\theta _{0}-\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{0}}

重复上面过程:用 \theta_{1} 作 g(\theta ) 的线性化点,不断求新的零值点。 新点的迭代求取公式如下

                                                         \theta _{k+1}=\theta _{k}-\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{k}}

最终将 g(\theta ) 带入迭代公式中得到MLE表达

                                            \theta _{k+1}=\theta _{k}-[\frac{\partial^2 lnp(x;\theta )}{\partial \theta ^2}]^{-1 }\frac{\partial lnp(x;\theta )}{\partial \theta }|_{\theta =\theta _{k}}

    Remark:迭代可能不收敛;即使迭代收敛,求得的值可能不是全局最大的(解决方法:最好采取多个起始点迭代)。

 

        ii> 得分法(迭代法)

该方法考虑到MLE是MVU估计量,具有有效性,达到CRLB。则可以近似将N-R迭代法中的二阶导换掉

                                                          \frac{\partial^2 lnp(x;\theta )}{\partial \theta ^2}|_{\theta =\theta _{k}}\approx -I(\theta _{k})

即最终迭代的MLE表达

                                                    \theta _{k+1}=\theta _{k}+I^{-1}(\theta )\frac{\partial lnp(x;\theta )}{\partial \theta }|_{\theta =\theta _{k}}

    Remmark:存在与N-R迭代法一样的收敛问题。

6、线性模型的最佳MLE

如果观测到数据的 x 可由一般线性模型表示为

                                                         X=H\theta + W

H——是N×p(秩为p,N>p)矩阵;\theta——p×1的参数矢量;W——其PDF为N(0, C)的噪声矢量

那么 \theta 的MLE为

                                             \hat{\theta}=(H^{T}C^{-1}H)^{-1}H^{T}C^{-1}X

注意 \hat{\theta} 是一个有效的估计量,它达到了CRLB,故它是MVU估计量, \hat{\theta} 的PDF为

                                                \hat{\theta}\sim N(0,(H^{T}C^{-1}H)^{-1})

你可能感兴趣的:(数学-统计,概论...)