极大似然估计和贝叶斯估计

极大似然估计

  • 设总体服从分布 f ( x ; θ 1 , . . . , θ k ) f(x; \theta_1, ..., \theta_k) f(x;θ1,...,θk) X 1 , . . . , X 2 X_1, ..., X_2 X1,...,X2 为从这个总体中抽出的样本,则样本 ( X 1 , . . . , X 2 ) (X_1, ..., X_2) (X1,...,X2) 的分布为

L ( x 1 , . . . , x 2 ; θ 1 , . . . , θ k ) = ∏ i = 1 n f ( x i ; θ 1 , . . . , θ k ) L(x_1, ..., x_2; \theta_1, ..., \theta_k) = \prod _{ i=1 }^{ n }{ f\left( { x }_{ i }; \theta_1, ..., \theta_k\right) } L(x1,...,x2;θ1,...,θk)=i=1nf(xi;θ1,...,θk)

  • 当已观察到 X 1 , . . . , X 2 X_1, ..., X_2 X1,...,X2 时,若有 L ( x 1 , . . . , x 2 ; θ 1 ′ , . . . , θ k ′ ) > L ( x 1 , . . . , x 2 ; θ 1 ′ ′ , . . . , θ k ′ ′ ) L(x_1, ..., x_2; \theta_1^{\prime}, ..., \theta_k^{\prime}) > L(x_1, ..., x_2; \theta_1^{\prime\prime}, ..., \theta_k^{\prime\prime}) L(x1,...,x2;θ1,...,θk)>L(x1,...,x2;θ1,...,θk),则被估计的参数 ( θ 1 , . . . , θ k ) (\theta_1, ..., \theta_k) (θ1,...,θk) ( θ 1 ′ , . . . , θ k ′ ) (\theta_1^{\prime}, ..., \theta_k^{\prime}) (θ1,...,θk) 的可能性比它是 ( θ 1 ′ ′ , . . . , θ k ′ ′ ) (\theta_1^{\prime\prime}, ..., \theta_k^{\prime\prime}) (θ1,...,θk) 的可能性大

  • X 1 , . . . , X 2 X_1, ..., X_2 X1,...,X2 固定时,称 L L L 为参数 ( θ 1 , . . . , θ k ) (\theta_1, ..., \theta_k) (θ1,...,θk)似然函数;估计参数时,应该用使似然函数取最大值的点 ( θ 1 ∗ , . . . , θ k ∗ ) (\theta_1^*, ..., \theta_k^*) (θ1,...,θk) 作为参数 ( θ 1 , . . . , θ k ) (\theta_1, ..., \theta_k) (θ1,...,θk) 的估计值,即

L ( x 1 , . . . , x 2 ; θ 1 ∗ , . . . , θ k ∗ ) = m a x θ 1 , . . . , θ k L ( x 1 , . . . , x 2 ; θ 1 , . . . , θ k ) L(x_1, ..., x_2; \theta_1^*, ..., \theta_k^*) = \underset {\theta_1, ..., \theta_k}{\rm max }L(x_1, ..., x_2; \theta_1, ..., \theta_k) L(x1,...,x2;θ1,...,θk)=θ1,...,θkmaxL(x1,...,x2;θ1,...,θk)

  • 为使 L L L 最大,只需使 l n L {\rm ln}L lnL 最大,也就是令似然方程组
    ∂ l n L ∂ θ i = ∂ ∑ i = 1 n l n f ( x i ; θ 1 , . . . , θ k ) ∂ θ i = 0 , i = 1 , . . . , k \frac { \partial {\rm ln}L }{ \partial { \theta }_{ i } } =\frac { \partial \sum _{ i=1 }^{ n }{\rm ln } f\left( { x }_{ i }; \theta_1, ..., \theta_k\right) }{ \partial { \theta }_{ i } } = 0, \quad i = 1, ..., k θilnL=θii=1nlnf(xi;θ1,...,θk)=0,i=1,...,k

极大似然估计要求分布有参数的形式;在各种估计方法中,极大似然估计相对来说比较优良

贝叶斯估计

  • 贝叶斯估计要求在采样前已经对参数 θ \theta θ 有了一定的知识,即先验知识;先验知识用 θ \theta θ 的某种概率分布表示,称为 θ \theta θ先验分布,记为 h ( θ ) h(\theta) h(θ) h ( θ ) h(\theta) h(θ) 总结了我们对参数 θ \theta θ 的先验知识

  • 设总体服从分布 f ( X , θ ) f(\bm{X}, \theta) f(X,θ) X 1 , . . . , X 2 X_1, ..., X_2 X1,...,X2 为从这个总体中抽出的样本,则样本 ( X 1 , . . . , X 2 ) (X_1, ..., X_2) (X1,...,X2) 的分布为 ∏ i = 1 n f ( X n , θ ) \prod _{ i=1 }^{ n }{ f(\bm{X}_n, \theta) } i=1nf(Xn,θ);这可视为在给定 θ \theta θ 值时样本 ( X 1 , . . . , X 2 ) (X_1, ..., X_2) (X1,...,X2) 的条件密度,从而 ( θ , X 1 , . . . , X 2 ) (\theta, X_1, ..., X_2) (θ,X1,...,X2) 的联合密度为 h ( θ ) ∏ i = 1 n f ( X n , θ ) h(\theta)\prod _{ i=1 }^{ n }{ f(\bm{X}_n, \theta) } h(θ)i=1nf(Xn,θ);进一步地,样本 ( X 1 , . . . , X 2 ) (X_1, ..., X_2) (X1,...,X2) 的边缘密度为
    p ( X 1 , . . . , X 2 ) = ∫ h ( θ ) ∏ i = 1 n f ( X n , θ ) d θ p(X_1, ..., X_2) = \int { h(\theta)\prod _{ i=1 }^{ n }{ f(\bm{X}_n, \theta) } }\rm{d}\theta p(X1,...,X2)=h(θ)i=1nf(Xn,θ)dθ

  • 根据上式,得到给定 ( X 1 , . . . , X 2 ) (X_1, ..., X_2) (X1,...,X2) 的条件下 θ \theta θ 的条件密度为
    h ( θ ∣ X 1 , . . . , X 2 ) = h ( θ ) ∏ i = 1 n f ( X n , θ ) p ( X 1 , . . . , X 2 ) h(\theta|X_1, ..., X_2)=h(\theta)\frac { \prod _{ i=1 }^{ n }{ f(\bm{X}_n, \theta) } }{ p(X_1, ..., X_2) } h(θX1,...,X2)=h(θ)p(X1,...,X2)i=1nf(Xn,θ)

  • 上式称为参数 θ \theta θ后验分布,代表了我们得到样本 X 1 , . . . , X 2 X_1, ..., X_2 X1,...,X2 后对参数 θ \theta θ后验知识;后验知识综合了 θ \theta θ 的先验知识( h ( θ ) h(\theta) h(θ))和样本带来的信息

  • 得到后验分布后,对参数 θ \theta θ 的统计推断只能基于这个后验分布,通常取其均值作为对参数 θ \theta θ 的估计

  • 先验分布的选择:

    • [ 0 , 1 ] [0, 1] [0,1] 上的均匀分布,即 h ( θ ) = R ( 0 , 1 ) h(\theta) = R(0, 1) h(θ)=R(0,1)
    • 估计正态分布 N ( μ , σ 2 ) \bm{N}(\mu, \sigma^2) N(μ,σ2) 中的 μ \mu μ,取 h ( μ ) = 1 h(\mu) = 1 h(μ)=1;估计 σ \sigma σ,取 h ( σ ) = 1 σ h(\sigma) = \frac{1}{\sigma} h(σ)=σ1
    • 估计指数分布中的 λ \lambda λ,取 h ( λ ) = 1 λ h(\lambda) = \frac{1}{\lambda} h(λ)=λ1

你可能感兴趣的:(Mathematics)