概率论之极大似然估计

统计的基本任务是以样本推断总体,在很多场合下,总体分布的形式是已知的,需要求得未知参数,这就是数理统计的参数估计问题。参数估计分为两种:一种是点估计,一种是区间估计。前者是用一个适当的统计量作为参数的近似,我们将统计量的样本值称为该参数的估计值;后者是用统计量两个值所界定的区间来指出真实参数值的大致范围。本文主要讲点估计中的极大似然估计。点估计的矩估计和区间估计以后再说。
极大似然估计(Maximum Likelihood Estimate,MLE),认为总体含有未知参数的信息可以由样本反映出来,样本之所以被抽到的原因是抽样发生的概率应是最大的,这就是极大似然估计的原理。
极大似然估计的做法关键有两步:第一步写出某样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn出现概率的表达式 L ( θ ) L(\theta) L(θ),对于离散型总体X,设它的分布列为 p ( k i ; θ ) , i = 1 , 2 , . . . p(k_i;\theta),i=1,2,... p(ki;θ),i=1,2,...,则上述样本出现的概率为
L ( θ ) = ∏ i = 1 n p ( X i ; θ ) L(\theta)=\prod_{i=1}^np(X_i;\theta) L(θ)=i=1np(Xi;θ)
对于固定的样本, L ( θ ) L(\theta) L(θ)是参数 θ \theta θ的函数,我们称之为似然函数;第二步则是求 θ ^ ∈ Θ ( Θ 是 参 数 空 间 ) \hat\theta\in\Theta(\Theta是参数空间) θ^Θ(Θ),使得 L ( θ ) L(\theta) L(θ)达到最大的 θ ^ \hat\theta θ^为所求参数 θ \theta θ的极大似然估计。
这里还需要强调的几点:

  1. 当总体X是连续型随机变量时,谈所谓样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn出现的概率是没有什么意义的,因为任何一个具体样本的出现都是零概率事件,这时我们就考虑样本在它任意小的邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续总体的情况下,我们用样本的密度函数作为似然函数 L ( θ ) = ∏ i = 1 n f ( X i ; θ ) L(\theta)=\prod_{i=1}^nf(X_i;\theta) L(θ)=i=1nf(Xi;θ)
  2. 为了计算方便,我们常对似然函数 L ( θ ) L(\theta) L(θ)取对数,并称 l n L ( θ ) lnL(\theta) lnL(θ)对数似然函数,易知, L ( θ ) L(\theta) L(θ) l n L ( θ ) lnL(\theta) lnL(θ)在同一 θ ^ \hat\theta θ^处达到极大,因此,这样做不会改变极大点;
  3. 在大多数情形下,待估计的参数 θ = ( θ 1 , θ 2 , . . . , θ m ) \theta=(\theta_1,\theta_2,...,\theta_m) θ=(θ1,θ2,...,θm)是向量,参数空间 Θ \Theta Θ包含m维欧式空间的一个区域,求极值必须考虑偏导方程,即对对数似然函数关于 θ i \theta_i θi求偏导,再令之为零 ∂ l n L ( θ ) ∂ θ i = 0 , θ = ( θ 1 , θ 2 , . . . , θ m ) , i = 1 , 2 , . . . , m \frac{\partial{lnL(\theta)}}{\partial{\theta_i}}=0,\theta=(\theta_1,\theta_2,...,\theta_m),i=1,2,...,m θilnL(θ)=0,θ=(θ1,θ2,...,θm),i=1,2,...,m
例题

x 1 , x 2 , . . . x n 是 N ( μ , σ 2 ) 的 样 本 , 求 μ 与 σ 2 的 M L E x_1,x_2,...x_n是N(\mu,\sigma^2)的样本,求\mu与\sigma^2的MLE x1,x2,...xnN(μ,σ2)μσ2MLE
解 我们有 L ( μ , σ 2 ) = 1 ( 2 π ) n 2 ( σ 2 ) n 2 e x p { − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 } , L(\mu,\sigma^2)=\frac{1}{(2\pi)^\frac{n}{2}(\sigma^2)^{\frac{n}{2}}}exp\lbrace-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}\rbrace, L(μ,σ2)=(2π)2n(σ2)2n1exp{2σ2i=1n(xiμ)2},
对似然函数取对数,得 l n L ( μ , σ 2 ) = − n 2 l n 2 π − n 2 l n σ 2 − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 . lnL(\mu,\sigma^2)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{\sum_{i=1}^n(x_i-\mu)^2}{2\sigma^2}. lnL(μ,σ2)=2nln2π2nlnσ22σ2i=1n(xiμ)2.
因为有两个未知数求极值,所以根据偏导方程 { ∂ l n L ( μ , σ 2 ) ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ⋮ ∂ l n L ( μ , σ 2 ) ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 \begin{cases} \frac{\partial{lnL(\mu,\sigma^2)}}{\partial{\mu}}=\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0\\ &&&&\vdots\\ \frac{\partial{lnL(\mu,\sigma^2)}}{\partial{\sigma^2}}=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-\mu)^2=0& \end{cases} μlnL(μ,σ2)=σ21i=1n(xiμ)=0σ2lnL(μ,σ2)=2σ2n+2σ41i=1n(xiμ)2=0
解似然方程组,即得
μ ^ = 1 n ∑ i = 1 n x i = x ˉ , \hat\mu=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x}, μ^=n1i=1nxi=xˉ,
σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = s 0 2 \sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2=s_0^2 σ2=n1i=1n(xixˉ)2=s02

你可能感兴趣的:(机器学习,读书笔记)