数理统计复习笔记三——点估计

在数理统计复习笔记一——统计中常用的抽样分布和数理统计复习笔记二——充分统计量中,分别介绍了统计量的几个常用抽样分布和充分统计量,引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。

一、矩估计

1.1 定义

对于样本 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn以及任意一正整数 k k k,我们称 a k = 1 n ∑ i = 1 n X i k (1) a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1 ak=n1i=1nXik(1) m k = 1 n ∑ i = 1 n ( X i − X ‾ ) k (2) m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2 mk=n1i=1n(XiX)k(2)
为样本 k k k原点矩 k k k中心矩

称总体 X X X k k k原点矩 k k k中心矩分别为 μ k = E X k (3) \mu_k=EX^k\tag3 μk=EXk(3) ν k = E ( X − μ 1 ) k (4) \nu_k=E(X-\mu_1)^k\tag4 νk=E(Xμ1)k(4)

由定义可知,样本矩不依赖于总体中的参数,但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知,样本矩是总体矩的一个很好的估计。

1.2 总体均值和方差的矩估计

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn为简单随机样本,且总体二阶矩存在,记 μ = E ( X ) \mu=E(X) μ=E(X) σ 2 = V a r ( X ) \sigma^2=Var(X) σ2=Var(X),则由矩估计法可知 μ ^ = a 1 = 1 n ∑ i = 1 n X i (5) \hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5 μ^=a1=n1i=1nXi(5) μ ^ 2 = μ ^ 2 + σ ^ 2 = a 2 = 1 n ∑ i = 1 n X i 2 (6) \hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6 μ^2=μ^2+σ^2=a2=n1i=1nXi2(6)
由此可求得总体均值和方差的矩估计为 μ ^ = X ‾ (7) \hat\mu=\overline X\tag7 μ^=X(7) σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 (8) \hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8 σ^2=n1i=1n(XiX)2(8)
所以,总体均值的矩估计是样本均值,总体方差的矩估计是样本方差的 n − 1 n \frac{n-1}{n} nn1。记 S n ∗ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 Sn2=n1i=1n(XiX)2修正的样本方差。而且上述结论不要求总体分布的形式。

1.3 例子

  • 柏松分布 P ( λ ) P(\lambda) P(λ)的总体均值的矩估计: λ ^ = X ‾ (9) \hat\lambda=\overline X\tag9 λ^=X(9) λ ^ = S n ∗ 2 (10) \hat\lambda=S_n^{*2}\tag{10} λ^=Sn2(10)
    都是总体均值的矩估计( λ \lambda λ既是柏松分布 P ( λ ) P(\lambda) P(λ)的均值,又是方差),但本着选用低阶矩的原则,可以选用 ( 9 ) (9) (9)式。
  • 均匀分布 U ( 0 , θ ) U(0, \theta) U(0,θ)中参数 θ \theta θ的估计: θ ^ = 2 X ‾ (11) \hat\theta=2\overline X\tag{11} θ^=2X(11)

二、极大似然估计

2.1 基本思想

认为概率最大的事情最有可能发生。

2.2 似然函数

对于分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {f(x,θ),θΘ},如以 f ( x , θ ) f(\bm x,\theta) f(x,θ)记其 n n n个样本的联合概率分布,则对于给定的样本观测值 x = ( x 1 , ⋯   , x n ) \bm x=(x_1,\cdots,x_n) x=(x1,,xn),我们称 f ( x , θ ) f(\bm x,\theta) f(x,θ)为参数 θ \theta θ的似然函数,简称为似然函数,并记作 L ( θ , x ) = f ( x , θ ) , ∀ θ ∈ Θ (12) L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12} L(θ,x)=f(x,θ),θΘ(12)
ln ⁡ L ( θ , x ) \ln L(\theta, \bm x) lnL(θ,x)为对数似然函数,记为 l ( θ , x ) l(\theta, \bm x) l(θ,x) l ( θ ) l(\theta) l(θ)

由定义可知,似然函数与样本联合概率分布相同,但二者的含义却不同:样本联合概率分布是固定参数值 θ \theta θ下关于样本 x \bm x x的函数,它的取值空间为样本空间 X \mathcal X X;似然函数则是固定样本观测值 x \bm x x下关于参数 θ \theta θ的函数,其在参数空间 Θ \Theta Θ上取值

换句话说就是,当给定参数后,样本联合分布将告诉我们哪个样本将以多大的概率被观测到;反过来,当有了样本后,似然函数将告诉我们如何最有可能的取参数 θ \theta θ的估计

2.3 MLE

2.3.1 定义

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是来自某概率分布 f ( x , θ ) ∈ F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\} f(x,θ)F={f(x,θ),θΘRk}的一组样本,如果统计量 θ ^ ( X ) \hat\theta(\bm X) θ^(X)满足 L ( θ ^ ( x ) , x ) = sup ⁡ θ ∈ Θ L ( θ , x ) (13) L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13} L(θ^(x),x)=θΘsupL(θ,x)(13)或等价的满足 l ( θ ^ ( x ) , x ) = sup ⁡ θ ∈ Θ l ( θ , x ) (14) l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14} l(θ^(x),x)=θΘsupl(θ,x)(14)
则称 θ ^ \hat\theta θ^ θ \theta θMLE

2.3.2 求解

根据定义可知,如果似然函数 L ( θ , x ) L(\theta,\bm x) L(θ,x)关于 θ \theta θ可微,则 θ \theta θ的MLE可以通过求解下面的方程求得: ∂ L ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯   , k (15) \frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15} θjL(θ,x)=0,j=1,,k(15)或等价的有 ∂ l ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯   , k (16) \frac{\partial l(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{16} θjl(θ,x)=0,j=1,,k(16)

15 15 15 16 16 16似然方程

2.3.3 例子

  • 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) μ \mu μ σ 2 \sigma^2 σ2的MLE: μ ^ = X ‾ (17) \hat\mu=\overline X\tag{17} μ^=X(17) σ ^ 2 = S n ∗ 2 (18) \hat\sigma^2=S_n^{*2}\tag{18} σ^2=Sn2(18)
    由此可知,对于正态总体而言,其均值和方差的矩估计和MLE是一样的

  • 均匀分布 U ( 0 , θ ) U(0,\theta) U(0,θ) θ \theta θ的MLE: θ ^ = X ( n ) (19) \hat\theta=X_{(n)}\tag{19} θ^=X(n)(19)
    和矩估计相比,不妨令 θ ^ M = 2 X ‾ \hat\theta_M=2\overline X θ^M=2X θ ^ L = X ( n ) \hat\theta_L=X_{(n)} θ^L=X(n),则 E ( θ ^ M ) = θ E(\hat\theta_M)=\theta E(θ^M)=θ V a r ( θ ^ M ) = θ 2 3 n Var(\hat\theta_M)=\frac{\theta^2}{3n} Var(θ^M)=3nθ2 E ( θ ^ L ) = n n + 1 θ E(\hat\theta_L)=\frac{n}{n+1}\theta E(θ^L)=n+1nθ V a r ( θ ^ M ) = n θ 2 ( n + 1 ) 2 ( n + 2 ) Var(\hat\theta_M)=\frac{n\theta^2}{(n+1)^2(n+2)} Var(θ^M)=(n+1)2(n+2)nθ2。所以 θ ^ M \hat\theta_M θ^M是无偏估计,而 θ ^ L \hat\theta_L θ^L不是,但 V a r θ ^ L < V a r θ ^ M Var \hat\theta_L \lt Var \hat\theta_M Varθ^L<Varθ^M

  • 柏松分布 P ( λ ) P(\lambda) P(λ) λ \lambda λ的MLE: λ ^ = X ‾ (20) \hat\lambda=\overline X\tag{20} λ^=X(20)

2.3.4 性质

  • 一个参数的MLE不一定唯一
  • MLE肯定是充分统计量的函数
  • 如果 g ( θ ) g(\theta) g(θ) 1 − 1 1-1 11映射,且 θ ^ \hat\theta θ^ θ \theta θ的MLE,那么 g ( θ ^ ) g(\hat\theta) g(θ^) g ( θ ) g(\theta) g(θ)的MLE,称为不变原则

三、无偏估计和一致最小方差无偏估计

前两小节介绍了两种估计参数的方法,但我们应该选取哪一种呢?这就涉及到本节讲述的选择准则问题。

3.1 无偏估计准则

3.1.1 无偏估计

如果 T ( X ) T(\bm X) T(X)是未知参数 θ \theta θ的函数 g ( θ ) g(\theta) g(θ)的一个估计量,且满足 E θ T ( X ) = g ( θ ) , ∀ θ ∈ Θ (21) E_\theta T(\bm X)=g(\theta), \forall \theta\in\Theta\tag{21} EθT(X)=g(θ),θΘ(21)
则称 T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的无偏估计,其中 E θ E_\theta Eθ表示期望是在分布 f θ f_\theta fθ下进行的。否则就是有偏估计,称 b T ( θ ) = E θ T ( X ) − g ( θ ) b_T(\theta)=E_\theta T(\bm X)-g(\theta) bT(θ)=EθT(X)g(θ) T ( X ) T(\bm X) T(X)的偏差。

对于正态总体,我们不难验证,样本均值 X ‾ \overline X X和样本方差 S n 2 S_n^2 Sn2分别是总体均值和方差的无偏估计(对于非正态总体,这一结论也是正确的),而总体方差的矩估计和MLE—— S n ∗ 2 S_n^{*2} Sn2则不是无偏的,这是我们采用 S n 2 S_n^2 Sn2作为样本方差定义的一个原因。虽然 S n ∗ 2 S_n^{*2} Sn2是有偏的,但随着 n n n的增大,它越来越接近无偏。

E ( X ‾ ) = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E ( X i ) = 1 n ∑ i = 1 n μ = μ E(\overline X)=E[\frac{1}{n}\sum\limits_{i=1}^nX_i]=\frac{1}{n}\sum\limits_{i=1}^nE(X_i)=\frac{1}{n}\sum\limits_{i=1}^n\mu=\mu E(X)=E[n1i=1nXi]=n1i=1nE(Xi)=n1i=1nμ=μ,无偏得证。

E ( S n 2 ) = E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E ( ∑ i = 1 n X i 2 − n X ‾ 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) E(S_n^2)=E[\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E[\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2-n\overline X^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2) E(Sn2)=E[n11i=1n(XiX)2]=n11E[i=1n(XiX)2]=n11E(i=1nXi2nX2)=n11E(i=1nXi2)n1nE(X2),而 E ( X i 2 ) − E ( X i ) 2 = σ 2 E(X_i^2)-E(X_i)^2=\sigma^2 E(Xi2)E(Xi)2=σ2,所以 E ( X i 2 ) = μ 2 + σ 2 E(X_i^2)=\mu^2+\sigma^2 E(Xi2)=μ2+σ2,所以 E ( ∑ i = 1 n X i 2 ) = n E ( X i 2 ) = n ( μ 2 + σ 2 ) (*) E(\sum\limits_{i=1}^nX_i^2)=nE(X_i^2)=n(\mu^2+\sigma^2)\tag{*} E(i=1nXi2)=nE(Xi2)=n(μ2+σ2)(*)
注意到, V a r ( X ‾ ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n V a r ( X i ) = 1 n σ 2 Var(\overline X)=Var(\frac{1}{n}\sum\limits_{i=1}^nX_i)=\frac{1}{n}\sum\limits_{i=1}^nVar(X_i)=\frac{1}{n}\sigma^2 Var(X)=Var(n1i=1nXi)=n1i=1nVar(Xi)=n1σ2,而 V a r ( X ‾ ) = E [ X ‾ 2 ] − E ( X ‾ ) 2 = E [ X ‾ 2 ] − μ 2 Var(\overline X)=E[\overline X^2]-E(\overline X)^2=E[\overline X^2]-\mu^2 Var(X)=E[X2]E(X)2=E[X2]μ2,所以 E [ X ‾ 2 ] = μ 2 + 1 n σ 2 (**) E[\overline X^2]=\mu^2+\frac{1}{n}\sigma^2\tag{**} E[X2]=μ2+n1σ2(**)结合 ∗ * ∗ ∗ ** 即可得到 E ( S n 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) = n ( μ 2 + σ 2 ) n − 1 − n n − 1 ( μ 2 + 1 n σ 2 ) = σ 2 E(S_n^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2)=\frac{n(\mu^2+\sigma^2)}{n-1}-\frac{n}{n-1}(\mu^2+\frac{1}{n}\sigma^2)=\sigma^2 E(Sn2)=n11E(i=1nXi2)n1nE(X2)=n1n(μ2+σ2)n1n(μ2+n1σ2)=σ2,无偏得证。

注意到 σ 2 = E ( X i − μ ) 2 = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] \sigma^2=E(X_i-\mu)^2=E[\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2] σ2=E(Xiμ)2=E[n1i=1n(Xiμ)2],当 μ \mu μ已知时, 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1n(Xiμ)2 σ 2 \sigma^2 σ2的一个无偏估计。当 μ \mu μ未知时,自然的想法是用 X ‾ \overline X X代替 μ \mu μ,如果使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1n(XiX)2来估计,那么会低估 σ 2 \sigma^2 σ2。证明如下:

1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1n(XiX)2= 1 n ∑ i = 1 n ( X i − μ + μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 n ∑ i = 1 n ( X i − μ ) ( μ − X ‾ ) + 1 n ∑ i = 1 n ( μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( μ − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu+\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2+\frac{2}{n}\sum\limits_{i=1}^n(X_i-\mu)(\mu-\overline X)+\frac{1}{n}\sum\limits_{i=1}^n(\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2-(\mu-\overline X)^2 n1i=1n(Xiμ+μX)2=n1i=1n(Xiμ)2+n2i=1n(Xiμ)(μX)+n1i=1n(μX)2=n1i=1n(Xiμ)2(μX)2

所以除非正好 X ‾ = μ \overline X=\mu X=μ,否则我们一定有 1 n ∑ i = 1 n ( X i − X ‾ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2\lt \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1n(XiX)2<n1i=1n(Xiμ)2
所以使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1n(XiX)2来估计,会低估方差

3.1.2 渐进无偏估计

如果 T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的一个有偏估计,且满足 lim ⁡ n → ∞ E θ T ( X 1 , ⋯   , X n ) = g ( θ ) , ∀ θ ∈ Θ (22) \lim_{n\to\infty}E_\theta T(X_1, \cdots, X_n)=g(\theta), \forall \theta\in\Theta\tag{22} nlimEθT(X1,,Xn)=g(θ),θΘ(22)
则称 T T T g ( θ ) g(\theta) g(θ)的渐进无偏估计。

3.1.3 说明

  • 无偏估计是从多次重复的角度引入的概念,从期望的定义不难看出,尽管一次估计, T ( x ) T(\bm x) T(x)的值不一定恰好等于参数真值 g ( θ ) g(\theta) g(θ),但当大量重复使用时,其多次估计的平均值即等于参数
  • 一个参数的无偏估计可能不是唯一的,也可能不存在,也可能不合理
  • 缩小偏差的方法有刀切法和Bootstrap

3.1.4 例子

  • 柏松分布 P ( λ ) P(\lambda) P(λ)的参数 1 λ \frac{1}{\lambda} λ1不存在无偏估计
  • 对于正态总体,样本标准差 S n S_n Sn不是 σ \sigma σ的无偏估计(只有线性变换的无偏估计才是无偏估计)
  • 由3.1.1可知,当正态总体均值 μ \mu μ已知或未知时, σ 2 \sigma^2 σ2的无偏估计不唯一

3.2 一致最小均方误差准则

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是来自分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta):\theta\in\Theta\} F={f(x,θ):θΘ}中某一分布的样本, g ( θ ) g(\theta) g(θ)是一参数函数,以 ε ( g ) \varepsilon(g) ε(g)表示用来估计 g ( θ ) g(\theta) g(θ)的某些估计量的集合,如果存在一个 T ∗ ∈ ε ( g ) T^*\in\varepsilon(g) Tε(g),使得对任一 T ∈ ε ( g ) T\in\varepsilon(g) Tε(g)均有 E θ ( T ∗ − g ( θ ) ) 2 ≤ E θ ( T − g ( θ ) ) 2 , ∀ θ ∈ Θ (23) E_\theta(T^*-g(\theta))^2\le E_\theta(T-g(\theta))^2, \forall \theta\in\Theta\tag{23} Eθ(Tg(θ))2Eθ(Tg(θ))2,θΘ(23)
则称 T ∗ T^* T g ( θ ) g(\theta) g(θ)的在 ε ( g ) \varepsilon(g) ε(g)中的一致最小均方误差估计,也称 T ∗ T^* T在均方意义下优于 T T T

均方误差(MSE): M S E ( T ) = E θ ( T − g ( θ ) ) 2 MSE(T)=E_\theta(T-g(\theta))^2 MSE(T)=Eθ(Tg(θ))2,当 T T T g ( θ ) g(\theta) g(θ)的无偏估计时,其MSE就是它的方差

3.3 一致最小方差无偏估计( U M V U E UMVUE UMVUE

3.3.1 定义

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是来自分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta):\theta\in\Theta\} F={f(x,θ):θΘ}中某一分布的样本, g ( θ ) g(\theta) g(θ)是一参数函数,又设 T ∗ T^* T g ( θ ) g(\theta) g(θ)的一个无偏估计。如对于 g ( θ ) g(\theta) g(θ)的任一无偏估计 T T T,均有 V a r θ ( T ∗ ) ≤ V a r θ ( T ) (24) Var_\theta(T^*)\le Var_\theta(T)\tag{24} Varθ(T)Varθ(T)(24)
则称 T ∗ T^* T g ( θ ) g(\theta) g(θ)的一致最小方差无偏估计,简记为 U M V U E UMVUE UMVUE

  • 对于某些分布族或参数,其 U M V U E UMVUE UMVUE不一定存在
  • U M V U E UMVUE UMVUE在以概率1相等的意义下是唯一的
  • 如果 T 1 T_1 T1 T 2 T_2 T2分别是 g 1 ( θ ) g_1(\theta) g1(θ) g 2 ( θ ) g_2(\theta) g2(θ) U M V U E UMVUE UMVUE,则对于任给定的常数 a , b a, b a,b a T 1 + b T 2 aT_1+bT_2 aT1+bT2 a g 1 ( θ ) + b g 2 ( θ ) ag_1(\theta)+bg_2(\theta) ag1(θ)+bg2(θ) U M V U E UMVUE UMVUE

3.3.2 例子

  • 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的均值和方差的 U M V U E UMVUE UMVUE T ( X ) = X ‾ (25) T(\bm X)=\overline X\tag{25} T(X)=X(25) S n 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 (26) S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\tag{26} Sn2=n11i=1n(XiX)2(26)

3.4 信息不等式和有效估计

U M V U E UMVUE UMVUE的方差是最小的,下面给出这个最小方差的一般表达式。

3.4.1 正则分布族和Fisher信息量

如果单参数分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta): \theta\in\Theta\} F={f(x,θ):θΘ}具有如下五个条件:

  1. 参数空间 Θ \Theta Θ是直线上的开区间(有限、无限或半无限)
  2. 导数 ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} θf(x,θ)存在, ∀ θ ∈ Θ \forall \theta\in\Theta θΘ
  3. 支撑剂与参数 θ \theta θ无关(支撑集 S = { x : f ( x , θ ) > 0 } S=\{x:f(x,\theta)\gt0\} S={x:f(x,θ)>0}
  4. P D F PDF PDF f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分运算可以互换,即 d d θ ∫ − ∞ ∞ f ( x , θ )   d x = ∫ − ∞ ∞ ∂ ∂ θ f ( x , θ )   d x (27) \frac{d}{d\theta}\int_{-\infty}^\infty f(x,\theta)\, dx=\int_{-\infty}^\infty \frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{27} dθdf(x,θ)dx=θf(x,θ)dx(27)
  5. I ( θ ) = E θ ( ∂ ∂ θ ln ⁡ f ( x , θ ) ) 2 (28) I(\theta)=E_\theta(\frac{\partial}{\partial\theta}\ln f(x, \theta))^2\tag{28} I(θ)=Eθ(θlnf(x,θ))2(28)存在,且 I ( θ ) > 0 I(\theta)\gt0 I(θ)>0

则称此分布族为 C − R C-R CR分布族,其中条件 1 − 5 1-5 15也称为正则条件, I ( θ ) I(\theta) I(θ)称为该分布族的Fisher信息量。

  • 柏松分布族是 C − R C-R CR分布族
  • 正态分布族 N ( μ , 1 ) N(\mu, 1) N(μ,1) μ ∈ R \mu\in R μR C − R C-R CR分布族
  • 均匀分布族 U ( 0 , θ ) U(0,\theta) U(0,θ)不是 C − R C-R CR分布族
  • 考虑IID样本的联合PDF,则可以证明 E θ ( ∂ ∂ θ ln ⁡ f ( X , θ ) ) 2 = n I ( θ ) E_\theta(\frac{\partial}{\partial\theta}\ln f(\bm X, \theta))^2=nI(\theta) Eθ(θlnf(X,θ))2=nI(θ)

3.4.2 信息不等式

本小节讨论正则分布族参数的无偏估计的方差的下界,即著名的信息不等式(C-R不等式)

设分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta): \theta\in\Theta\} F={f(x,θ):θΘ}是正则的,可估函数 g ( θ ) g(\theta) g(θ) Θ \Theta Θ上可微,又设 X 1 , ⋯   , X n X_1, \cdots, X_n X1,,Xn n n n个来自此分布族的IID样本, T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的一个无偏估计,且满足积分与微分号可互换的条件,即 d d θ ∫ − ∞ ∞ T ( x ) f ( x , θ )   d x = ∫ − ∞ ∞ T ( x ) ∂ ∂ θ f ( x , θ )   d x (29) \frac{d}{d\theta}\int_{-\infty}^\infty T(\bm x)f(x,\theta)\, dx=\int_{-\infty}^\infty T(\bm x)\frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{29} dθdT(x)f(x,θ)dx=T(x)θf(x,θ)dx(29)
则有 V a r θ ( T ( X ) ) ≥ ( g ′ ( θ ) ) 2 n I ( θ ) (30) Var_\theta(T(\bm X))\ge\frac{(g^{'}(\theta))^2}{nI(\theta)}\tag{30} Varθ(T(X))nI(θ)(g(θ))2(30)
其中, I ( θ ) I(\theta) I(θ) F \mathcal F F的Fisher信息量, ( g ′ ( θ ) ) 2 n I ( θ ) \frac{(g^{'}(\theta))^2}{nI(\theta)} nI(θ)(g(θ))2成为 g ( θ ) g(\theta) g(θ)的无偏估计的方差的C-R下界。

  • 当样本不是独立时,只需把式 30 30 30中的 n I ( θ ) nI(\theta) nI(θ)换为 E θ ( ∂ ln ⁡ f ( X , θ ) ∂ θ ) 2 E_\theta(\frac{\partial\ln f(\bm X,\theta)}{\partial\theta})^2 Eθ(θlnf(X,θ))2即可
  • 信息不等式与Fisher信息量密切相关。不妨假设信息不等式的下界可以取到,且 g ( θ ) = θ g(\theta)=\theta g(θ)=θ,则此时无偏估计的最小方差为 1 n I ( θ ) \frac{1}{nI(\theta)} nI(θ)1。这说明, n θ n\theta nθ越大,最小方差越小,参数 θ \theta θ越可以被精确的估计。这也说明,如果以估计量的方差的倒数作为估计量精度的指标,则精度与样本量 n n n成正比,而 I ( θ ) I(\theta) I(θ)则反映总体分布的性质, I ( θ ) I(\theta) I(θ)越大,说明总体本身提供的信息量越多
  • E θ [ ∂ ∂ θ ln ⁡ f ( X , θ ) ] = 0 (31) E_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=0\tag{31} Eθ[θlnf(X,θ)]=0(31)
  • I ( θ ) = V a r θ [ ∂ ∂ θ ln ⁡ f ( X , θ ) ] = − E θ [ ∂ 2 ∂ θ 2 ln ⁡ f ( X , θ ) ] (32) I(\theta)=Var_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=-E_\theta[\frac{\partial^2}{\partial\theta^2}\ln f(\bm X,\theta)]\tag{32} I(θ)=Varθ[θlnf(X,θ)]=Eθ[θ22lnf(X,θ)](32)
  • 结合MLE的相关知识,可以得到 I ( θ ) I(\theta) I(θ)用来估计MLE的方程的方差,详见极大似然估计的渐进正态性

3.4.3 有效估计

T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的一个无偏估计,则比值 e n = ( g ′ ( θ ) ) 2 / n I ( θ ) V a r θ T ( X ) (33) e_n=\frac{(g^{'}(\theta))^2/nI(\theta)}{Var_\theta T(\bm X)}\tag{33} en=VarθT(X)(g(θ))2/nI(θ)(33)
T ( X ) T(\bm X) T(X)的效率。如果 e n = 1 e_n=1 en=1,则称 T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的有效估计。如果 lim ⁡ n → ∞ e n = 1 \lim\limits_{n\to\infty}e_n=1 nlimen=1,则称 T ( X ) T(\bm X) T(X) g ( θ ) g(\theta) g(θ)的渐进有效估计。

3.5 相合估计

大样本角度(即 n n n不固定)考虑估计的优良。

3.5.1 相合估计

设统计量 T n T_n Tn是总体参数 g ( θ ) g(\theta) g(θ)的估计量,如果当 n → ∞ n\to\infty n时,

  • T n T_n Tn依概率收敛于 g ( θ ) g(\theta) g(θ),即对 ∀ θ ∈ Θ \forall\theta\in\Theta θΘ ϵ > 0 \epsilon\gt0 ϵ>0,有 lim ⁡ n → ∞ P { ∣ T n − g ( θ ) ∣ ≥ ϵ } = 0 \lim_{n\to\infty}P\{|T_n-g(\theta)|\ge\epsilon\} = 0 nlimP{Tng(θ)ϵ}=0则称 T n T_n Tn g ( θ ) g(\theta) g(θ)的(弱)相合估计。
  • T n T_n Tn以概率1收敛于 g ( θ ) g(\theta) g(θ),即 ∀ θ ∈ Θ \forall\theta\in\Theta θΘ,有 P { lim ⁡ n → ∞ T n = g ( θ ) } = 1 P\{\lim_{n\to\infty}T_n=g(\theta)\}=1 P{nlimTn=g(θ)}=1则称 T n T_n Tn g ( θ ) g(\theta) g(θ)的强相合估计。

3.5.2 例子

只要样本 X 1 , ⋯   , X n X_1, \cdots, X_n X1,,Xn I I D IID IID的,且期望 E X = μ EX=\mu EX=μ存在,则由大数定律知,样本均值就是总体均值 μ \mu μ的相合估计,而与其具体分布无关。

你可能感兴趣的:(概率论与数理统计,统计学)