极大似然估计(MLE)和矩估计是数理统计中进行参数估计常用方法.通常我们假设观测到的样本 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn均是从一个统计模型 X ∼ F ( x ; θ ) X\sim F(x;\theta) X∼F(x;θ)随机抽样得到,即n个样本独立同分布,由此可以将联合密度函数写成边际分布函数的连乘形式. P ( X 1 , X 2 , … , X n ∣ θ ) = ∏ i = 1 n P ( X i ∣ θ ) P(X_1,X_2,\dots,X_n|\theta)=\prod_{i=1}^{n}P(X_i|\theta) P(X1,X2,…,Xn∣θ)=i=1∏nP(Xi∣θ)
极大似然估计需要我们利用已知的观测对统计模型中的未知参数进行推断(此时,统计模型的分布类型是知道的,如正态分布、泊松分布等).一般情况下,人们定义MLE为:所得参数可以使观测到事件 ( X 1 , X 2 , … , X n ) (X_1,X_2,\dots,X_n) (X1,X2,…,Xn)发生的概率达到最大.即 θ ^ M L E = arg max θ ∈ Θ P ( X 1 , X 2 , … , X n ∣ θ ) \hat{\theta}_{MLE}=\underset{\theta \in \Theta}{\arg\max}P(X_1,X_2,\dots,X_n|\theta) θ^MLE=θ∈ΘargmaxP(X1,X2,…,Xn∣θ)
其中 Θ \Theta Θ表示参数空间.
上面的表达式是极大似然估计最根本的定义,从名称上也不难看出,似然 → \rightarrow →likelihood → \rightarrow →可能性,即估计参数需要极大化观测发生的可能性.到此为止,极大似然估计的原理已经非常的清晰,但是进一步考虑一下这个问题:既然任何由样本的到的统计量都可以称为是参数 θ \theta θ的一个估计,那么极大似然估计与其他估计相比的合理性在哪里呢?或者为什么使观测发生概率达到最大的估计更好呢?
回到最初的问题,现在已知随机变量的分布类型和一些观测样本.假设统计模型的真实参数为 θ ∗ \theta^* θ∗,一个最直观的想法是:估计分布 F θ ^ F_{\hat{\theta}} Fθ^与真实分布 F θ ∗ F_{\theta^*} Fθ∗越接近越好.下面引入K-L divergence(K-L距离,又称相对熵)衡量两个连续分布的接近程度.
Def: 设 p ( x ) p(x) p(x)和 q ( x ) q(x) q(x)为两个连续分布 P ( x ) P(x) P(x)和 Q ( x ) Q(x) Q(x)的密度函数,用 D ( P ∣ ∣ Q ) D(P||Q) D(P∣∣Q)表示两个分布的K-L距离,计算公式为: D ( P ∣ ∣ Q ) = ∫ x ∈ χ p ( x ) l o g p ( x ) q ( x ) d x D(P||Q)=\underset{x \in \chi}{\int}p(x)log\frac{p(x)}{q(x)}dx D(P∣∣Q)=x∈χ∫p(x)logq(x)p(x)dx
其中 χ \chi χ表示事件域.
于是参数估计问题转化为: θ ^ = arg min θ ∈ Θ D K L ( P θ ∗ ∣ ∣ P θ ^ ) \hat{\theta}=\underset{\theta \in \Theta}{\arg\min}D_{KL}(P_{\theta^*}||P_{\hat{\theta}}) θ^=θ∈ΘargminDKL(Pθ∗∣∣Pθ^) ’
由统计学中期望的定义,对K-L距离计算公式进行改写:
D K L ( P θ ∗ ∣ ∣ P θ ^ ) = ∫ l o g p ( X ∣ θ ∗ ) p ( X ∣ θ ^ ) p ( X ∣ θ ∗ ) d X = E θ ∗ [ l o g p ( X ∣ θ ∗ ) p ( X ∣ θ ^ ) ] = E θ ∗ [ l o g ( p ( X ∣ θ ∗ ) ) ] − E θ ∗ [ l o g ( p ( X ∣ θ ^ ) ) ] \begin{aligned} D_{KL}(P_{\theta^*}||P_{\hat{\theta}}) &=\int log\frac{p(X|\theta^*)}{p(X|\hat{\theta})}p(X|\theta^*)dX \\ &=E_{\theta^*}\left[log\frac{p(X|\theta^*)}{p(X|\hat{\theta})}\right]\\ &=E_{\theta^*}\left[log(p(X|\theta^*))\right]-E_{\theta^*}\left[log(p(X|\hat{\theta}))\right] \end{aligned} DKL(Pθ∗∣∣Pθ^)=∫logp(X∣θ^)p(X∣θ∗)p(X∣θ∗)dX=Eθ∗[logp(X∣θ^)p(X∣θ∗)]=Eθ∗[log(p(X∣θ∗))]−Eθ∗[log(p(X∣θ^))]
注意到参数模型中真实的 θ ∗ \theta^* θ∗是不会发生变化的,所以上述等式右侧的第一项是一个常数,只有第二项会因为估计参数 θ ^ \hat{\theta} θ^的变化而变化,要求最小的 D K L ( P θ ∗ ∣ ∣ P θ ^ ) D_{KL}(P_{\theta^*}||P_{\hat{\theta}}) DKL(Pθ∗∣∣Pθ^),等价于求最大的 E θ ∗ [ l o g ( p ( X ∣ θ ^ ) ) ] E_{\theta^*}\left[log(p(X|\hat{\theta}))\right] Eθ∗[log(p(X∣θ^))].
用大数定律对期望 E θ ∗ [ l o g ( p ( X ∣ θ ^ ) ) ] E_{\theta^*}\left[log(p(X|\hat{\theta}))\right] Eθ∗[log(p(X∣θ^))]进行近似展开,利用目前已知的 n n n个样本信息( n n n个样本独立同分布!):
E θ ∗ [ l o g ( p ( X ∣ θ ^ ) ) ] = 1 n ∑ i = 1 n l o g ( p ( X i ∣ θ ^ ) ) = 1 n l o g ∏ i = 1 n p ( X i ∣ θ ^ ) \begin{aligned} E_{\theta^*}\left[log(p(X|\hat{\theta}))\right]&=\frac{1}{n}\sum_{i=1}^{n}log(p(X_i|\hat{\theta}))\\ &=\frac{1}{n}log\prod_{i=1}^{n}p(X_i|\hat{\theta}) \end{aligned} Eθ∗[log(p(X∣θ^))]=n1i=1∑nlog(p(Xi∣θ^))=n1logi=1∏np(Xi∣θ^)
所以想要极大化 E θ ∗ [ l o g ( p ( X ∣ θ ^ ) ) ] E_{\theta^*}\left[log(p(X|\hat{\theta}))\right] Eθ∗[log(p(X∣θ^))]只需要极大化 ∏ i = 1 n p ( X i ∣ θ ^ ) \prod_{i=1}^{n}p(X_i|\hat{\theta}) ∏i=1np(Xi∣θ^).回到本文的第一个公式,在独立同同分布的假设下,就是极大化 P ( X 1 , X 2 , … , X n ∣ θ ^ ) P(X_1,X_2,\dots,X_n|\hat{\theta}) P(X1,X2,…,Xn∣θ^).当我们找到使 P ( X 1 , X 2 , … , X n ∣ θ ^ ) P(X_1,X_2,\dots,X_n|\hat{\theta}) P(X1,X2,…,Xn∣θ^)达到最 θ ^ \hat{\theta} θ^时,估计分布 F θ ^ F_{\hat{\theta}} Fθ^与真实分布 F θ ∗ F_{\theta^*} Fθ∗最接近,也就得到了最合理的参数估计 θ ^ \hat{\theta} θ^.
此时,根据实际意义我们发现,这个估计量 θ ^ \hat{\theta} θ^正是极大似然估计 θ ^ M L E \hat{\theta}_{MLE} θ^MLE!