极大似然估计方法

(本文记录了学习MLE的学习笔记,学习资料为Hogg, McKean og Craig: Chapter 6. Maximum likelihood methods.)

极大似然估计是统计学中,估计参数的一种方法。它的本质思想是,如果一个参数能使得这个样本出现的概率最大,那么我们就选择这个参数作为真实参数的估计值。
假设我们已知某个随机样本满足某种概率分布,但是并不清楚其中的参数具体为多少。为了估计出这个参数的值,我们进行多次试验,最后根据试验的结果估计出参数的值。
接下来,我们对极大似然估计进行理论上的分析。

Likelihood Function

首先,我们假设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是独立同分布随机变量,概率密度函数为为 f ( x ; θ ) f(x;\theta) f(x;θ) θ ∈ Ω \theta\in\Omega θΩ. 那么似然方程可以表示为, L ( θ ; x ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Ω L(\theta;\mathbf{x})=\displaystyle{\prod \limits_{i=1}^n}f(x_i;\theta), \theta\in\Omega L(θ;x)=i=1nf(xi;θ),θΩ方程中 x = ( x 1 , . . . , x n ) ′ \mathbf{x}=(x_1,...,x_n)' x=(x1,...,xn)。因为 L L L 是关于 θ \theta θ 的函数,所以我们也可以表示为 L ( θ ) L(\theta) L(θ)。此函数的对数,其实更为常用,于是我们定义对数似然方程,
l ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 n log ⁡ f ( x i ; θ ) , θ ∈ Ω l(\theta)=\log L(\theta)=\displaystyle{\sum\limits_{i=1}^n}\log f(x_i;\theta), \theta\in\Omega l(θ)=logL(θ)=i=1nlogf(xi;θ),θΩ

Regularity Conditions

定义 θ 0 \theta_0 θ0 表示为参数 θ \theta θ 真正的值。现在我们进行一些假设,这些假设通常称为 Regularity Conditions,
R 0 \mathbf{R0} R0:概率密度函数是唯一的。这意味着, θ ≠ θ ′ ⇒ f ( x i ; θ ) ≠ f ( x i ; θ ′ ) \theta\neq\theta'\Rightarrow f(x_i;\theta)\neq f(x_i;\theta') θ=θf(xi;θ)=f(xi;θ)
R 1 \mathbf{R1} R1:概率密度函数满足所有 θ \theta θ
R 2 \mathbf{R2} R2 Ω \Omega Ω包含 θ \theta θ
根据这三条假设,我们可以定义 MLE。

Maximum Likelihood Estimation

Principle

定理 6.1.1:令 θ 0 \theta_0 θ0 是参数真实值,在假设(R0)-(R2)下,
lim ⁡ n → ∞ P θ 0 [ L ( θ 0 , X ) > L ( θ , X ) ] = 1 , f o r    a l l    θ ≠ θ 0 \lim_{n\rightarrow\infty}P_{\theta_0}[L(\theta_0,\mathbf{X})>L(\theta,\mathbf{X})]=1,\quad for\;all\;\theta\neq\theta_0 nlimPθ0[L(θ0,X)>L(θ,X)]=1,forallθ=θ0定理6.1.1表明了渐近似然函数在真实值 θ 0 \theta_0 θ0 处最大。所以我们接下来可以很自然的考虑可以最大化似然函数的 θ \theta θ

定义 6.1.1:如果 θ ^ = A r g m a x L ( θ ; X ) \hat{\theta}=Argmax L(\theta;\mathbf{X}) θ^=ArgmaxL(θ;X)那么我们称 θ ^ = θ ^ ( X ) \hat{\theta}=\hat{\theta}(\mathbf{X}) θ^=θ^(X) θ \theta θ 的极大似然估计。

我们想要求解使方程最大的 θ \theta θ 值,就是使导数为0,
l ′ ( θ ; x ) = 1 n ∑ i = 1 n ∂ log ⁡ f ( x i ; θ ) ∂ θ = 0 l'(\theta;x)=\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n\dfrac{\partial\log f(x_i;\theta)}{\partial\theta}}=0 l(θ;x)=n1i=1nθlogf(xi;θ)=0然而实际上我们不能确定极大似然估计一定存在,或者只有唯一解。

Consistency of the MLE

定理 6.1.3:令 θ 0 \theta_0 θ0 是参数真实值,且 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 满足(R0)-(R2)。同时 f ( x ; θ ) f(x;\theta) f(x;θ) θ ∈ Ω \theta\in\Omega θΩ 可微。那么似然方程,
∂ ∂ θ L ( θ ) = 0 o r ∂ ∂ θ l ( θ ) = 0 \dfrac{\partial}{\partial\theta}L(\theta)=0\qquad or \qquad \dfrac{\partial}{\partial\theta}l(\theta)=0 θL(θ)=0orθl(θ)=0的解 θ ^ n \hat{\theta}_n θ^n θ 0 \theta_0 θ0一致, θ ^ n → P θ 0 \hat{\theta}_n\stackrel{P}{\rightarrow}\theta_0 θ^nPθ0

Additional Regularity Conditions

在其他规则条件下,MLE是渐近正态分布的。 接下来,我们了解一下这些假设。
R 3 / 5 \mathbf{R3/5} R3/5:概率密度函数 f ( x ; θ ) f(x;\theta) f(x;θ)可对 θ \theta θ三次微分。进一步讲,对于所有的 θ ∈ Ω \theta\in\Omega θΩ, 存在一个常数 c c c,和一个随机变量 M ( x ) M(x) M(x) E θ 0 [ M ( X ) ] < ∞ E_{\theta_0}[M(X)]<\infty Eθ0[M(X)]<,有
∣ ∂ 3 ∂ θ 3 log ⁡ f ( x ; θ ) ∣ ≤ M ( x ) f o r    a l l    θ 0 − c < θ < θ 0 + c |\dfrac{\partial^3}{\partial\theta^3}\log f(x;\theta)|\le M(x)\qquad for\;all\;\theta_0-c<\theta<\theta_0+c θ33logf(x;θ)M(x)forallθ0c<θ<θ0+c R 4 \mathbf{R4} R4:积分 ∫ f ( x ; θ ) d x \displaystyle{\int}f(x;\theta)dx f(x;θ)dx 可以对 θ \theta θ 二次微分。

Asymptotic normality

定理 6.2.2:在上述所有假设下,且 V a r [ ∂ log ⁡ f ( X ; θ ) ∂ θ ] < ∞ Var[\dfrac{\partial\log f(X;\theta)}{\partial\theta}]<\infty Var[θlogf(X;θ)]<,则 n ( θ ^ − θ ) → D N ( 0 , 1 V a r [ ∂ log ⁡ f ( X ; θ ) ∂ θ ] 1 / 2 ) \sqrt{n}(\hat{\theta}-\theta)\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]^{1/2}}\right) n (θ^θ)DN0,Var[θlogf(X;θ)]1/21渐进方差为 1 n V a r [ ∂ log ⁡ f ( X ; θ ) ∂ θ ] \dfrac{1}{nVar\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]} nVar[θlogf(X;θ)]1
证明
现在我们考虑 l ′ ( θ ^ ) l'(\hat{\theta}) l(θ^) θ 0 \theta_0 θ0 的二阶泰勒展开
l ′ ( θ ^ ) = l ′ ( θ 0 ) + ( θ ^ − θ ) l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) l'(\hat{\theta})=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)) l(θ^)=l(θ0)+(θ^θ)l(θ0)+21(θ^θ)l(θ)) θ ∗ \theta^* θ 是在 θ 0 \theta_0 θ0 θ ^ \hat{\theta} θ^中间的一个随机变量。

根据定义 l ′ ( θ ^ ) = 0 l'(\hat{\theta})=0 l(θ^)=0,所以 0 = l ′ ( θ 0 ) + ( θ ^ − θ ) l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) − l ′ ( θ 0 ) = ( θ ^ − θ ) ( l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) ( θ ^ − θ ) = l ′ ( θ 0 ) − l ′ ′ ( θ 0 ) − 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) n ( θ ^ − θ ) = n l ′ ( θ 0 ) − l ′ ′ ( θ 0 ) − 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) = 1 n l ′ ( θ 0 ) − 1 n l ′ ′ ( θ 0 ) − 1 2 n ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) = A n B n + C n \begin{aligned} 0&=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*))\\ -l'(\theta_0)&=(\hat{\theta}-\theta)\left(l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)\right)\\ (\hat{\theta}-\theta)&=\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ \sqrt{n}(\hat{\theta}-\theta)&=\sqrt{n}\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{\frac{1}{\sqrt{n}}l'(\theta_0)}{-\frac{1}{n}l''(\theta_0)-\frac{1}{2n}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{A_n}{B_n+C_n} \end{aligned} 0l(θ0)(θ^θ)n (θ^θ)=l(θ0)+(θ^θ)l(θ0)+21(θ^θ)l(θ))=(θ^θ)(l(θ0)+21(θ^θ)l(θ))=l(θ0)21(θ^θ)l(θ)l(θ0)=n l(θ0)21(θ^θ)l(θ)l(θ0)=n1l(θ0)2n1(θ^θ)l(θ)n 1l(θ0)=Bn+CnAn

现在我们分别考虑 A n , B n , C n A_n,B_n,C_n An,Bn,Cn

A n = 1 n l ′ ( θ 0 ) = 1 n ∑ i = 1 n ∂ log ⁡ f ( x i ; θ 0 ) ∂ θ 0 A_n=\dfrac{1}{\sqrt{n}}l'(\theta_0)=\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i;\theta_0)}{\partial\theta_0} An=n 1l(θ0)=n 1i=1nθ0logf(xi;θ0)
∵ ∫ f ( x ; θ ) d x = 1 ∂ ∂ θ ∫ f ( x ; θ ) d x = ∫ ∂ ∂ θ f ( x ; θ ) d x = 0 ∴ ∫ ∂ ∂ θ f ( x ; θ ) d x = ∫ ∂ ∂ θ f ( x ; θ ) f ( x ; θ ) d x = E [ ∂ ∂ θ log ⁡ f ( X ; θ ) ] \begin{aligned}\because&\displaystyle{\int}f(x;\theta)dx=1\\ &\dfrac{\partial}{\partial\theta}\displaystyle{\int}f(x;\theta)dx=\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=0\\ \therefore&\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=\displaystyle{\int}\dfrac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}dx=E\left[\dfrac{\partial}{\partial\theta\log f(X;\theta)}\right] \end{aligned} f(x;θ)dx=1θf(x;θ)dx=θf(x;θ)dx=0θf(x;θ)dx=f(x;θ)θf(x;θ)dx=E[θlogf(X;θ)]
因此,由CLT可得
A n → D N ( 0 , V a r [ ∂ log ⁡ f ( X ; θ ) ∂ θ ] ) A_n\stackrel{D}{\rightarrow}N\left(0,Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]\right) AnDN(0,Var[θlogf(X;θ)])

现在我们考虑 B n B_n Bn
B n = − 1 n l ′ ′ ( θ 0 ) = − 1 n ∑ i = 1 n ∂ 2 log ⁡ f ( x i ; θ 0 ) ∂ θ 0 2 B_n=-\dfrac{1}{n}l''(\theta_0)=-\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial^2\log f(x_i;\theta_0)}{\partial\theta_0^2} Bn=n1l(θ0)=n1i=1nθ022logf(xi;θ0)
由大数定律得,
B n → P − E [ ∂ 2 log ⁡ f ( X ; θ 0 ) ∂ θ 0 2 ] = V a r [ ∂ log ⁡ f ( X ; θ 0 ) ∂ θ 0 ] B_n\stackrel{P}{\rightarrow}-E\left[\dfrac{\partial^2\log f(X;\theta_0)}{\partial\theta_0^2}\right]=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right] BnPE[θ022logf(X;θ0)]=Var[θ0logf(X;θ0)]
最后,我们要证明 C n C_n Cn 是渐进可忽略的。
因为 θ ^ \hat{\theta} θ^ 的一致性,并且如果 1 n l ′ ′ ′ ( θ ∗ ) \frac{1}{n}l'''(\theta^*) n1l(θ) 概率有界。那么我们认为 C n = o p ( 1 ) C_n=op(1) Cn=op(1) B n + C n = V a r [ ∂ log ⁡ f ( X ; θ 0 ) ∂ θ 0 ] + o p ( 1 ) B_n+C_n=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1) Bn+Cn=Var[θ0logf(X;θ0)]+op(1)最后由Slutsky’s lemma,可得
n ( θ ^ − θ ) = 1 V a r [ ∂ log ⁡ f ( X ; θ 0 ) ∂ θ 0 ] + o p ( 1 ) 1 n ∑ i = 1 n ∂ log ⁡ f ( x i , θ 0 ) ∂ θ 0 → D N ( 0 , 1 V a r [ ∂ log ⁡ f ( X ; θ 0 ) ∂ θ 0 ] 1 / 2 ) \begin{aligned} \sqrt{n}(\hat{\theta}-\theta)&=\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1)}\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i,\theta_0)}{\partial\theta_0}\\ &\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]^{1/2}}\right) \end{aligned} n (θ^θ)=Var[θ0logf(X;θ0)]+op(1)1n 1i=1nθ0logf(xi,θ0)DN0,Var[θ0logf(X;θ0)]1/21
其中 V a r [ ∂ log ⁡ f ( X ; θ 0 ) ∂ θ 0 ] Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right] Var[θ0logf(X;θ0)] 叫作 Fisher information。MLE的渐进方差是一个理论值,我们需要针对实际使用情况进行估算(例如,构建置信区间和假设检验)。

你可能感兴趣的:(学习笔记,统计学)