(本文记录了学习MLE的学习笔记,学习资料为Hogg, McKean og Craig: Chapter 6. Maximum likelihood methods.)
极大似然估计是统计学中,估计参数的一种方法。它的本质思想是,如果一个参数能使得这个样本出现的概率最大,那么我们就选择这个参数作为真实参数的估计值。
假设我们已知某个随机样本满足某种概率分布,但是并不清楚其中的参数具体为多少。为了估计出这个参数的值,我们进行多次试验,最后根据试验的结果估计出参数的值。
接下来,我们对极大似然估计进行理论上的分析。
首先,我们假设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是独立同分布随机变量,概率密度函数为为 f ( x ; θ ) f(x;\theta) f(x;θ), θ ∈ Ω \theta\in\Omega θ∈Ω. 那么似然方程可以表示为, L ( θ ; x ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Ω L(\theta;\mathbf{x})=\displaystyle{\prod \limits_{i=1}^n}f(x_i;\theta), \theta\in\Omega L(θ;x)=i=1∏nf(xi;θ),θ∈Ω方程中 x = ( x 1 , . . . , x n ) ′ \mathbf{x}=(x_1,...,x_n)' x=(x1,...,xn)′。因为 L L L 是关于 θ \theta θ 的函数,所以我们也可以表示为 L ( θ ) L(\theta) L(θ)。此函数的对数,其实更为常用,于是我们定义对数似然方程,
l ( θ ) = log L ( θ ) = ∑ i = 1 n log f ( x i ; θ ) , θ ∈ Ω l(\theta)=\log L(\theta)=\displaystyle{\sum\limits_{i=1}^n}\log f(x_i;\theta), \theta\in\Omega l(θ)=logL(θ)=i=1∑nlogf(xi;θ),θ∈Ω
定义 θ 0 \theta_0 θ0 表示为参数 θ \theta θ 真正的值。现在我们进行一些假设,这些假设通常称为 Regularity Conditions,
R 0 \mathbf{R0} R0:概率密度函数是唯一的。这意味着, θ ≠ θ ′ ⇒ f ( x i ; θ ) ≠ f ( x i ; θ ′ ) \theta\neq\theta'\Rightarrow f(x_i;\theta)\neq f(x_i;\theta') θ=θ′⇒f(xi;θ)=f(xi;θ′)。
R 1 \mathbf{R1} R1:概率密度函数满足所有 θ \theta θ。
R 2 \mathbf{R2} R2: Ω \Omega Ω包含 θ \theta θ。
根据这三条假设,我们可以定义 MLE。
定理 6.1.1:令 θ 0 \theta_0 θ0 是参数真实值,在假设(R0)-(R2)下,
lim n → ∞ P θ 0 [ L ( θ 0 , X ) > L ( θ , X ) ] = 1 , f o r a l l θ ≠ θ 0 \lim_{n\rightarrow\infty}P_{\theta_0}[L(\theta_0,\mathbf{X})>L(\theta,\mathbf{X})]=1,\quad for\;all\;\theta\neq\theta_0 n→∞limPθ0[L(θ0,X)>L(θ,X)]=1,forallθ=θ0定理6.1.1表明了渐近似然函数在真实值 θ 0 \theta_0 θ0 处最大。所以我们接下来可以很自然的考虑可以最大化似然函数的 θ \theta θ。
定义 6.1.1:如果 θ ^ = A r g m a x L ( θ ; X ) \hat{\theta}=Argmax L(\theta;\mathbf{X}) θ^=ArgmaxL(θ;X)那么我们称 θ ^ = θ ^ ( X ) \hat{\theta}=\hat{\theta}(\mathbf{X}) θ^=θ^(X) 是 θ \theta θ 的极大似然估计。
我们想要求解使方程最大的 θ \theta θ 值,就是使导数为0,
l ′ ( θ ; x ) = 1 n ∑ i = 1 n ∂ log f ( x i ; θ ) ∂ θ = 0 l'(\theta;x)=\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n\dfrac{\partial\log f(x_i;\theta)}{\partial\theta}}=0 l′(θ;x)=n1i=1∑n∂θ∂logf(xi;θ)=0然而实际上我们不能确定极大似然估计一定存在,或者只有唯一解。
定理 6.1.3:令 θ 0 \theta_0 θ0 是参数真实值,且 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 满足(R0)-(R2)。同时 f ( x ; θ ) f(x;\theta) f(x;θ) 对 θ ∈ Ω \theta\in\Omega θ∈Ω 可微。那么似然方程,
∂ ∂ θ L ( θ ) = 0 o r ∂ ∂ θ l ( θ ) = 0 \dfrac{\partial}{\partial\theta}L(\theta)=0\qquad or \qquad \dfrac{\partial}{\partial\theta}l(\theta)=0 ∂θ∂L(θ)=0or∂θ∂l(θ)=0的解 θ ^ n \hat{\theta}_n θ^n与 θ 0 \theta_0 θ0一致, θ ^ n → P θ 0 \hat{\theta}_n\stackrel{P}{\rightarrow}\theta_0 θ^n→Pθ0。
在其他规则条件下,MLE是渐近正态分布的。 接下来,我们了解一下这些假设。
R 3 / 5 \mathbf{R3/5} R3/5:概率密度函数 f ( x ; θ ) f(x;\theta) f(x;θ)可对 θ \theta θ三次微分。进一步讲,对于所有的 θ ∈ Ω \theta\in\Omega θ∈Ω, 存在一个常数 c c c,和一个随机变量 M ( x ) M(x) M(x), E θ 0 [ M ( X ) ] < ∞ E_{\theta_0}[M(X)]<\infty Eθ0[M(X)]<∞,有
∣ ∂ 3 ∂ θ 3 log f ( x ; θ ) ∣ ≤ M ( x ) f o r a l l θ 0 − c < θ < θ 0 + c |\dfrac{\partial^3}{\partial\theta^3}\log f(x;\theta)|\le M(x)\qquad for\;all\;\theta_0-c<\theta<\theta_0+c ∣∂θ3∂3logf(x;θ)∣≤M(x)forallθ0−c<θ<θ0+c R 4 \mathbf{R4} R4:积分 ∫ f ( x ; θ ) d x \displaystyle{\int}f(x;\theta)dx ∫f(x;θ)dx 可以对 θ \theta θ 二次微分。
定理 6.2.2:在上述所有假设下,且 V a r [ ∂ log f ( X ; θ ) ∂ θ ] < ∞ Var[\dfrac{\partial\log f(X;\theta)}{\partial\theta}]<\infty Var[∂θ∂logf(X;θ)]<∞,则 n ( θ ^ − θ ) → D N ( 0 , 1 V a r [ ∂ log f ( X ; θ ) ∂ θ ] 1 / 2 ) \sqrt{n}(\hat{\theta}-\theta)\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]^{1/2}}\right) n(θ^−θ)→DN⎝⎜⎜⎜⎛0,Var[∂θ∂logf(X;θ)]1/21⎠⎟⎟⎟⎞渐进方差为 1 n V a r [ ∂ log f ( X ; θ ) ∂ θ ] \dfrac{1}{nVar\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]} nVar[∂θ∂logf(X;θ)]1
证明:
现在我们考虑 l ′ ( θ ^ ) l'(\hat{\theta}) l′(θ^) 在 θ 0 \theta_0 θ0 的二阶泰勒展开
l ′ ( θ ^ ) = l ′ ( θ 0 ) + ( θ ^ − θ ) l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) l'(\hat{\theta})=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)) l′(θ^)=l′(θ0)+(θ^−θ)l′′(θ0)+21(θ^−θ)l′′′(θ∗)) θ ∗ \theta^* θ∗ 是在 θ 0 \theta_0 θ0和 θ ^ \hat{\theta} θ^中间的一个随机变量。
根据定义 l ′ ( θ ^ ) = 0 l'(\hat{\theta})=0 l′(θ^)=0,所以 0 = l ′ ( θ 0 ) + ( θ ^ − θ ) l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) − l ′ ( θ 0 ) = ( θ ^ − θ ) ( l ′ ′ ( θ 0 ) + 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) ) ( θ ^ − θ ) = l ′ ( θ 0 ) − l ′ ′ ( θ 0 ) − 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) n ( θ ^ − θ ) = n l ′ ( θ 0 ) − l ′ ′ ( θ 0 ) − 1 2 ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) = 1 n l ′ ( θ 0 ) − 1 n l ′ ′ ( θ 0 ) − 1 2 n ( θ ^ − θ ) l ′ ′ ′ ( θ ∗ ) = A n B n + C n \begin{aligned} 0&=l'(\theta_0)+(\hat{\theta}-\theta)l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*))\\ -l'(\theta_0)&=(\hat{\theta}-\theta)\left(l''(\theta_0)+\dfrac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)\right)\\ (\hat{\theta}-\theta)&=\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ \sqrt{n}(\hat{\theta}-\theta)&=\sqrt{n}\dfrac{l'(\theta_0)}{-l''(\theta_0)-\frac{1}{2}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{\frac{1}{\sqrt{n}}l'(\theta_0)}{-\frac{1}{n}l''(\theta_0)-\frac{1}{2n}(\hat{\theta}-\theta)l'''(\theta^*)}\\ &=\dfrac{A_n}{B_n+C_n} \end{aligned} 0−l′(θ0)(θ^−θ)n(θ^−θ)=l′(θ0)+(θ^−θ)l′′(θ0)+21(θ^−θ)l′′′(θ∗))=(θ^−θ)(l′′(θ0)+21(θ^−θ)l′′′(θ∗))=−l′′(θ0)−21(θ^−θ)l′′′(θ∗)l′(θ0)=n−l′′(θ0)−21(θ^−θ)l′′′(θ∗)l′(θ0)=−n1l′′(θ0)−2n1(θ^−θ)l′′′(θ∗)n1l′(θ0)=Bn+CnAn
现在我们分别考虑 A n , B n , C n A_n,B_n,C_n An,Bn,Cn。
A n = 1 n l ′ ( θ 0 ) = 1 n ∑ i = 1 n ∂ log f ( x i ; θ 0 ) ∂ θ 0 A_n=\dfrac{1}{\sqrt{n}}l'(\theta_0)=\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i;\theta_0)}{\partial\theta_0} An=n1l′(θ0)=n1i=1∑n∂θ0∂logf(xi;θ0)
∵ ∫ f ( x ; θ ) d x = 1 ∂ ∂ θ ∫ f ( x ; θ ) d x = ∫ ∂ ∂ θ f ( x ; θ ) d x = 0 ∴ ∫ ∂ ∂ θ f ( x ; θ ) d x = ∫ ∂ ∂ θ f ( x ; θ ) f ( x ; θ ) d x = E [ ∂ ∂ θ log f ( X ; θ ) ] \begin{aligned}\because&\displaystyle{\int}f(x;\theta)dx=1\\ &\dfrac{\partial}{\partial\theta}\displaystyle{\int}f(x;\theta)dx=\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=0\\ \therefore&\displaystyle{\int}\dfrac{\partial}{\partial\theta}f(x;\theta)dx=\displaystyle{\int}\dfrac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}dx=E\left[\dfrac{\partial}{\partial\theta\log f(X;\theta)}\right] \end{aligned} ∵∴∫f(x;θ)dx=1∂θ∂∫f(x;θ)dx=∫∂θ∂f(x;θ)dx=0∫∂θ∂f(x;θ)dx=∫f(x;θ)∂θ∂f(x;θ)dx=E[∂θlogf(X;θ)∂]
因此,由CLT可得
A n → D N ( 0 , V a r [ ∂ log f ( X ; θ ) ∂ θ ] ) A_n\stackrel{D}{\rightarrow}N\left(0,Var\left[\dfrac{\partial\log f(X;\theta)}{\partial\theta}\right]\right) An→DN(0,Var[∂θ∂logf(X;θ)])
现在我们考虑 B n B_n Bn:
B n = − 1 n l ′ ′ ( θ 0 ) = − 1 n ∑ i = 1 n ∂ 2 log f ( x i ; θ 0 ) ∂ θ 0 2 B_n=-\dfrac{1}{n}l''(\theta_0)=-\dfrac{1}{n}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial^2\log f(x_i;\theta_0)}{\partial\theta_0^2} Bn=−n1l′′(θ0)=−n1i=1∑n∂θ02∂2logf(xi;θ0)
由大数定律得,
B n → P − E [ ∂ 2 log f ( X ; θ 0 ) ∂ θ 0 2 ] = V a r [ ∂ log f ( X ; θ 0 ) ∂ θ 0 ] B_n\stackrel{P}{\rightarrow}-E\left[\dfrac{\partial^2\log f(X;\theta_0)}{\partial\theta_0^2}\right]=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right] Bn→P−E[∂θ02∂2logf(X;θ0)]=Var[∂θ0∂logf(X;θ0)]
最后,我们要证明 C n C_n Cn 是渐进可忽略的。
因为 θ ^ \hat{\theta} θ^ 的一致性,并且如果 1 n l ′ ′ ′ ( θ ∗ ) \frac{1}{n}l'''(\theta^*) n1l′′′(θ∗) 概率有界。那么我们认为 C n = o p ( 1 ) C_n=op(1) Cn=op(1)。 B n + C n = V a r [ ∂ log f ( X ; θ 0 ) ∂ θ 0 ] + o p ( 1 ) B_n+C_n=Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1) Bn+Cn=Var[∂θ0∂logf(X;θ0)]+op(1)最后由Slutsky’s lemma,可得
n ( θ ^ − θ ) = 1 V a r [ ∂ log f ( X ; θ 0 ) ∂ θ 0 ] + o p ( 1 ) 1 n ∑ i = 1 n ∂ log f ( x i , θ 0 ) ∂ θ 0 → D N ( 0 , 1 V a r [ ∂ log f ( X ; θ 0 ) ∂ θ 0 ] 1 / 2 ) \begin{aligned} \sqrt{n}(\hat{\theta}-\theta)&=\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]+op(1)}\dfrac{1}{\sqrt{n}}\displaystyle{\sum\limits_{i=1}^n}\dfrac{\partial\log f(x_i,\theta_0)}{\partial\theta_0}\\ &\stackrel{D}\rightarrow N\left(0,\dfrac{1}{Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right]^{1/2}}\right) \end{aligned} n(θ^−θ)=Var[∂θ0∂logf(X;θ0)]+op(1)1n1i=1∑n∂θ0∂logf(xi,θ0)→DN⎝⎜⎜⎜⎛0,Var[∂θ0∂logf(X;θ0)]1/21⎠⎟⎟⎟⎞
其中 V a r [ ∂ log f ( X ; θ 0 ) ∂ θ 0 ] Var\left[\dfrac{\partial\log f(X;\theta_0)}{\partial\theta_0}\right] Var[∂θ0∂logf(X;θ0)] 叫作 Fisher information。MLE的渐进方差是一个理论值,我们需要针对实际使用情况进行估算(例如,构建置信区间和假设检验)。