在数理统计复习笔记一——统计中常用的抽样分布和数理统计复习笔记二——充分统计量中,分别介绍了统计量的几个常用抽样分布和充分统计量,引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。
对于样本 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn以及任意一正整数 k k k,我们称 a k = 1 n ∑ i = 1 n X i k (1) a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1 ak=n1i=1∑nXik(1) m k = 1 n ∑ i = 1 n ( X i − X ‾ ) k (2) m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2 mk=n1i=1∑n(Xi−X)k(2)
为样本 k k k阶原点矩和 k k k阶中心矩。
称总体 X X X的 k k k阶原点矩和 k k k阶中心矩分别为 μ k = E X k (3) \mu_k=EX^k\tag3 μk=EXk(3) ν k = E ( X − μ 1 ) k (4) \nu_k=E(X-\mu_1)^k\tag4 νk=E(X−μ1)k(4)
由定义可知,样本矩不依赖于总体中的参数,但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知,样本矩是总体矩的一个很好的估计。
记 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为简单随机样本,且总体二阶矩存在,记 μ = E ( X ) \mu=E(X) μ=E(X), σ 2 = V a r ( X ) \sigma^2=Var(X) σ2=Var(X),则由矩估计法可知 μ ^ = a 1 = 1 n ∑ i = 1 n X i (5) \hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5 μ^=a1=n1i=1∑nXi(5) μ ^ 2 = μ ^ 2 + σ ^ 2 = a 2 = 1 n ∑ i = 1 n X i 2 (6) \hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6 μ^2=μ^2+σ^2=a2=n1i=1∑nXi2(6)
由此可求得总体均值和方差的矩估计为 μ ^ = X ‾ (7) \hat\mu=\overline X\tag7 μ^=X(7) σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 (8) \hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8 σ^2=n1i=1∑n(Xi−X)2(8)
所以,总体均值的矩估计是样本均值,总体方差的矩估计是样本方差的 n − 1 n \frac{n-1}{n} nn−1倍。记 S n ∗ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 Sn∗2=n1i=1∑n(Xi−X)2为修正的样本方差。而且上述结论不要求总体分布的形式。
认为概率最大的事情最有可能发生。
对于分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {f(x,θ),θ∈Θ},如以 f ( x , θ ) f(\bm x,\theta) f(x,θ)记其 n n n个样本的联合概率分布,则对于给定的样本观测值 x = ( x 1 , ⋯ , x n ) \bm x=(x_1,\cdots,x_n) x=(x1,⋯,xn),我们称 f ( x , θ ) f(\bm x,\theta) f(x,θ)为参数 θ \theta θ的似然函数,简称为似然函数,并记作 L ( θ , x ) = f ( x , θ ) , ∀ θ ∈ Θ (12) L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12} L(θ,x)=f(x,θ),∀θ∈Θ(12)
称 ln L ( θ , x ) \ln L(\theta, \bm x) lnL(θ,x)为对数似然函数,记为 l ( θ , x ) l(\theta, \bm x) l(θ,x)或 l ( θ ) l(\theta) l(θ)
由定义可知,似然函数与样本联合概率分布相同,但二者的含义却不同:样本联合概率分布是固定参数值 θ \theta θ下关于样本 x \bm x x的函数,它的取值空间为样本空间 X \mathcal X X;似然函数则是固定样本观测值 x \bm x x下关于参数 θ \theta θ的函数,其在参数空间 Θ \Theta Θ上取值。
换句话说就是,当给定参数后,样本联合分布将告诉我们哪个样本将以多大的概率被观测到;反过来,当有了样本后,似然函数将告诉我们如何最有可能的取参数 θ \theta θ的估计。
设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自某概率分布 f ( x , θ ) ∈ F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\} f(x,θ)∈F={f(x,θ),θ∈Θ⊆Rk}的一组样本,如果统计量 θ ^ ( X ) \hat\theta(\bm X) θ^(X)满足 L ( θ ^ ( x ) , x ) = sup θ ∈ Θ L ( θ , x ) (13) L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13} L(θ^(x),x)=θ∈ΘsupL(θ,x)(13)或等价的满足 l ( θ ^ ( x ) , x ) = sup θ ∈ Θ l ( θ , x ) (14) l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14} l(θ^(x),x)=θ∈Θsupl(θ,x)(14)
则称 θ ^ \hat\theta θ^是 θ \theta θ的MLE
根据定义可知,如果似然函数 L ( θ , x ) L(\theta,\bm x) L(θ,x)关于 θ \theta θ可微,则 θ \theta θ的MLE可以通过求解下面的方程求得: ∂ L ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯ , k (15) \frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15} ∂θj∂L(θ,x)=0,j=1,⋯,k(15)或等价的有 ∂ l ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯ , k (16) \frac{\partial l(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{16} ∂θj∂l(θ,x)=0,j=1,⋯,k(16)
称 15 15 15或 16 16 16为似然方程。
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的 μ \mu μ和 σ 2 \sigma^2 σ2的MLE: μ ^ = X ‾ (17) \hat\mu=\overline X\tag{17} μ^=X(17) σ ^ 2 = S n ∗ 2 (18) \hat\sigma^2=S_n^{*2}\tag{18} σ^2=Sn∗2(18)
由此可知,对于正态总体而言,其均值和方差的矩估计和MLE是一样的
均匀分布 U ( 0 , θ ) U(0,\theta) U(0,θ)的 θ \theta θ的MLE: θ ^ = X ( n ) (19) \hat\theta=X_{(n)}\tag{19} θ^=X(n)(19)
和矩估计相比,不妨令 θ ^ M = 2 X ‾ \hat\theta_M=2\overline X θ^M=2X, θ ^ L = X ( n ) \hat\theta_L=X_{(n)} θ^L=X(n),则 E ( θ ^ M ) = θ E(\hat\theta_M)=\theta E(θ^M)=θ, V a r ( θ ^ M ) = θ 2 3 n Var(\hat\theta_M)=\frac{\theta^2}{3n} Var(θ^M)=3nθ2, E ( θ ^ L ) = n n + 1 θ E(\hat\theta_L)=\frac{n}{n+1}\theta E(θ^L)=n+1nθ, V a r ( θ ^ M ) = n θ 2 ( n + 1 ) 2 ( n + 2 ) Var(\hat\theta_M)=\frac{n\theta^2}{(n+1)^2(n+2)} Var(θ^M)=(n+1)2(n+2)nθ2。所以 θ ^ M \hat\theta_M θ^M是无偏估计,而 θ ^ L \hat\theta_L θ^L不是,但 V a r θ ^ L < V a r θ ^ M Var \hat\theta_L \lt Var \hat\theta_M Varθ^L<Varθ^M
柏松分布 P ( λ ) P(\lambda) P(λ)的 λ \lambda λ的MLE: λ ^ = X ‾ (20) \hat\lambda=\overline X\tag{20} λ^=X(20)
前两小节介绍了两种估计参数的方法,但我们应该选取哪一种呢?这就涉及到本节讲述的选择准则问题。
如果 T ( X ) T(\bm X) T(X)是未知参数 θ \theta θ的函数 g ( θ ) g(\theta) g(θ)的一个估计量,且满足 E θ T ( X ) = g ( θ ) , ∀ θ ∈ Θ (21) E_\theta T(\bm X)=g(\theta), \forall \theta\in\Theta\tag{21} EθT(X)=g(θ),∀θ∈Θ(21)
则称 T ( X ) T(\bm X) T(X)是 g ( θ ) g(\theta) g(θ)的无偏估计,其中 E θ E_\theta Eθ表示期望是在分布 f θ f_\theta fθ下进行的。否则就是有偏估计,称 b T ( θ ) = E θ T ( X ) − g ( θ ) b_T(\theta)=E_\theta T(\bm X)-g(\theta) bT(θ)=EθT(X)−g(θ)为 T ( X ) T(\bm X) T(X)的偏差。
对于正态总体,我们不难验证,样本均值 X ‾ \overline X X和样本方差 S n 2 S_n^2 Sn2分别是总体均值和方差的无偏估计(对于非正态总体,这一结论也是正确的),而总体方差的矩估计和MLE—— S n ∗ 2 S_n^{*2} Sn∗2则不是无偏的,这是我们采用 S n 2 S_n^2 Sn2作为样本方差定义的一个原因。虽然 S n ∗ 2 S_n^{*2} Sn∗2是有偏的,但随着 n n n的增大,它越来越接近无偏。
E ( X ‾ ) = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E ( X i ) = 1 n ∑ i = 1 n μ = μ E(\overline X)=E[\frac{1}{n}\sum\limits_{i=1}^nX_i]=\frac{1}{n}\sum\limits_{i=1}^nE(X_i)=\frac{1}{n}\sum\limits_{i=1}^n\mu=\mu E(X)=E[n1i=1∑nXi]=n1i=1∑nE(Xi)=n1i=1∑nμ=μ,无偏得证。
E ( S n 2 ) = E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E ( ∑ i = 1 n X i 2 − n X ‾ 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) E(S_n^2)=E[\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E[\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2-n\overline X^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2) E(Sn2)=E[n−11i=1∑n(Xi−X)2]=n−11E[i=1∑n(Xi−X)2]=n−11E(i=1∑nXi2−nX2)=n−11E(i=1∑nXi2)−n−1nE(X2),而 E ( X i 2 ) − E ( X i ) 2 = σ 2 E(X_i^2)-E(X_i)^2=\sigma^2 E(Xi2)−E(Xi)2=σ2,所以 E ( X i 2 ) = μ 2 + σ 2 E(X_i^2)=\mu^2+\sigma^2 E(Xi2)=μ2+σ2,所以 E ( ∑ i = 1 n X i 2 ) = n E ( X i 2 ) = n ( μ 2 + σ 2 ) (*) E(\sum\limits_{i=1}^nX_i^2)=nE(X_i^2)=n(\mu^2+\sigma^2)\tag{*} E(i=1∑nXi2)=nE(Xi2)=n(μ2+σ2)(*)。
注意到, V a r ( X ‾ ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n V a r ( X i ) = 1 n σ 2 Var(\overline X)=Var(\frac{1}{n}\sum\limits_{i=1}^nX_i)=\frac{1}{n}\sum\limits_{i=1}^nVar(X_i)=\frac{1}{n}\sigma^2 Var(X)=Var(n1i=1∑nXi)=n1i=1∑nVar(Xi)=n1σ2,而 V a r ( X ‾ ) = E [ X ‾ 2 ] − E ( X ‾ ) 2 = E [ X ‾ 2 ] − μ 2 Var(\overline X)=E[\overline X^2]-E(\overline X)^2=E[\overline X^2]-\mu^2 Var(X)=E[X2]−E(X)2=E[X2]−μ2,所以 E [ X ‾ 2 ] = μ 2 + 1 n σ 2 (**) E[\overline X^2]=\mu^2+\frac{1}{n}\sigma^2\tag{**} E[X2]=μ2+n1σ2(**)结合 ∗ * ∗和 ∗ ∗ ** ∗∗即可得到 E ( S n 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) = n ( μ 2 + σ 2 ) n − 1 − n n − 1 ( μ 2 + 1 n σ 2 ) = σ 2 E(S_n^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2)=\frac{n(\mu^2+\sigma^2)}{n-1}-\frac{n}{n-1}(\mu^2+\frac{1}{n}\sigma^2)=\sigma^2 E(Sn2)=n−11E(i=1∑nXi2)−n−1nE(X2)=n−1n(μ2+σ2)−n−1n(μ2+n1σ2)=σ2,无偏得证。
注意到 σ 2 = E ( X i − μ ) 2 = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] \sigma^2=E(X_i-\mu)^2=E[\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2] σ2=E(Xi−μ)2=E[n1i=1∑n(Xi−μ)2],当 μ \mu μ已知时, 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1∑n(Xi−μ)2是 σ 2 \sigma^2 σ2的一个无偏估计。当 μ \mu μ未知时,自然的想法是用 X ‾ \overline X X代替 μ \mu μ,如果使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2来估计,那么会低估 σ 2 \sigma^2 σ2。证明如下:
1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2= 1 n ∑ i = 1 n ( X i − μ + μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 n ∑ i = 1 n ( X i − μ ) ( μ − X ‾ ) + 1 n ∑ i = 1 n ( μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( μ − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu+\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2+\frac{2}{n}\sum\limits_{i=1}^n(X_i-\mu)(\mu-\overline X)+\frac{1}{n}\sum\limits_{i=1}^n(\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2-(\mu-\overline X)^2 n1i=1∑n(Xi−μ+μ−X)2=n1i=1∑n(Xi−μ)2+n2i=1∑n(Xi−μ)(μ−X)+n1i=1∑n(μ−X)2=n1i=1∑n(Xi−μ)2−(μ−X)2
所以除非正好 X ‾ = μ \overline X=\mu X=μ,否则我们一定有 1 n ∑ i = 1 n ( X i − X ‾ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2\lt \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1∑n(Xi−X)2<n1i=1∑n(Xi−μ)2
所以使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2来估计,会低估方差。
如果 T ( X ) T(\bm X) T(X)是 g ( θ ) g(\theta) g(θ)的一个有偏估计,且满足 lim n → ∞ E θ T ( X 1 , ⋯ , X n ) = g ( θ ) , ∀ θ ∈ Θ (22) \lim_{n\to\infty}E_\theta T(X_1, \cdots, X_n)=g(\theta), \forall \theta\in\Theta\tag{22} n→∞limEθT(X1,⋯,Xn)=g(θ),∀θ∈Θ(22)
则称 T T T是 g ( θ ) g(\theta) g(θ)的渐进无偏估计。
设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta):\theta\in\Theta\} F={f(x,θ):θ∈Θ}中某一分布的样本, g ( θ ) g(\theta) g(θ)是一参数函数,以 ε ( g ) \varepsilon(g) ε(g)表示用来估计 g ( θ ) g(\theta) g(θ)的某些估计量的集合,如果存在一个 T ∗ ∈ ε ( g ) T^*\in\varepsilon(g) T∗∈ε(g),使得对任一 T ∈ ε ( g ) T\in\varepsilon(g) T∈ε(g)均有 E θ ( T ∗ − g ( θ ) ) 2 ≤ E θ ( T − g ( θ ) ) 2 , ∀ θ ∈ Θ (23) E_\theta(T^*-g(\theta))^2\le E_\theta(T-g(\theta))^2, \forall \theta\in\Theta\tag{23} Eθ(T∗−g(θ))2≤Eθ(T−g(θ))2,∀θ∈Θ(23)
则称 T ∗ T^* T∗为 g ( θ ) g(\theta) g(θ)的在 ε ( g ) \varepsilon(g) ε(g)中的一致最小均方误差估计,也称 T ∗ T^* T∗在均方意义下优于 T T T。
均方误差(MSE): M S E ( T ) = E θ ( T − g ( θ ) ) 2 MSE(T)=E_\theta(T-g(\theta))^2 MSE(T)=Eθ(T−g(θ))2,当 T T T是 g ( θ ) g(\theta) g(θ)的无偏估计时,其MSE就是它的方差
设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta):\theta\in\Theta\} F={f(x,θ):θ∈Θ}中某一分布的样本, g ( θ ) g(\theta) g(θ)是一参数函数,又设 T ∗ T^* T∗为 g ( θ ) g(\theta) g(θ)的一个无偏估计。如对于 g ( θ ) g(\theta) g(θ)的任一无偏估计 T T T,均有 V a r θ ( T ∗ ) ≤ V a r θ ( T ) (24) Var_\theta(T^*)\le Var_\theta(T)\tag{24} Varθ(T∗)≤Varθ(T)(24)
则称 T ∗ T^* T∗是 g ( θ ) g(\theta) g(θ)的一致最小方差无偏估计,简记为 U M V U E UMVUE UMVUE。
U M V U E UMVUE UMVUE的方差是最小的,下面给出这个最小方差的一般表达式。
如果单参数分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta): \theta\in\Theta\} F={f(x,θ):θ∈Θ}具有如下五个条件:
- 参数空间 Θ \Theta Θ是直线上的开区间(有限、无限或半无限)
- 导数 ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} ∂θ∂f(x,θ)存在, ∀ θ ∈ Θ \forall \theta\in\Theta ∀θ∈Θ
- 支撑剂与参数 θ \theta θ无关(支撑集 S = { x : f ( x , θ ) > 0 } S=\{x:f(x,\theta)\gt0\} S={x:f(x,θ)>0})
- 其 P D F PDF PDF f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分运算可以互换,即 d d θ ∫ − ∞ ∞ f ( x , θ ) d x = ∫ − ∞ ∞ ∂ ∂ θ f ( x , θ ) d x (27) \frac{d}{d\theta}\int_{-\infty}^\infty f(x,\theta)\, dx=\int_{-\infty}^\infty \frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{27} dθd∫−∞∞f(x,θ)dx=∫−∞∞∂θ∂f(x,θ)dx(27)
- I ( θ ) = E θ ( ∂ ∂ θ ln f ( x , θ ) ) 2 (28) I(\theta)=E_\theta(\frac{\partial}{\partial\theta}\ln f(x, \theta))^2\tag{28} I(θ)=Eθ(∂θ∂lnf(x,θ))2(28)存在,且 I ( θ ) > 0 I(\theta)\gt0 I(θ)>0
则称此分布族为 C − R C-R C−R分布族,其中条件 1 − 5 1-5 1−5也称为正则条件, I ( θ ) I(\theta) I(θ)称为该分布族的Fisher信息量。
本小节讨论正则分布族参数的无偏估计的方差的下界,即著名的信息不等式(C-R不等式)
设分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta): \theta\in\Theta\} F={f(x,θ):θ∈Θ}是正则的,可估函数 g ( θ ) g(\theta) g(θ)在 Θ \Theta Θ上可微,又设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn是 n n n个来自此分布族的IID样本, T ( X ) T(\bm X) T(X)是 g ( θ ) g(\theta) g(θ)的一个无偏估计,且满足积分与微分号可互换的条件,即 d d θ ∫ − ∞ ∞ T ( x ) f ( x , θ ) d x = ∫ − ∞ ∞ T ( x ) ∂ ∂ θ f ( x , θ ) d x (29) \frac{d}{d\theta}\int_{-\infty}^\infty T(\bm x)f(x,\theta)\, dx=\int_{-\infty}^\infty T(\bm x)\frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{29} dθd∫−∞∞T(x)f(x,θ)dx=∫−∞∞T(x)∂θ∂f(x,θ)dx(29)
则有 V a r θ ( T ( X ) ) ≥ ( g ′ ( θ ) ) 2 n I ( θ ) (30) Var_\theta(T(\bm X))\ge\frac{(g^{'}(\theta))^2}{nI(\theta)}\tag{30} Varθ(T(X))≥nI(θ)(g′(θ))2(30)
其中, I ( θ ) I(\theta) I(θ)为 F \mathcal F F的Fisher信息量, ( g ′ ( θ ) ) 2 n I ( θ ) \frac{(g^{'}(\theta))^2}{nI(\theta)} nI(θ)(g′(θ))2成为 g ( θ ) g(\theta) g(θ)的无偏估计的方差的C-R下界。
设 T ( X ) T(\bm X) T(X)是 g ( θ ) g(\theta) g(θ)的一个无偏估计,则比值 e n = ( g ′ ( θ ) ) 2 / n I ( θ ) V a r θ T ( X ) (33) e_n=\frac{(g^{'}(\theta))^2/nI(\theta)}{Var_\theta T(\bm X)}\tag{33} en=VarθT(X)(g′(θ))2/nI(θ)(33)
为 T ( X ) T(\bm X) T(X)的效率。如果 e n = 1 e_n=1 en=1,则称 T ( X ) T(\bm X) T(X)为 g ( θ ) g(\theta) g(θ)的有效估计。如果 lim n → ∞ e n = 1 \lim\limits_{n\to\infty}e_n=1 n→∞limen=1,则称 T ( X ) T(\bm X) T(X)为 g ( θ ) g(\theta) g(θ)的渐进有效估计。
从大样本角度(即 n n n不固定)考虑估计的优良。
设统计量 T n T_n Tn是总体参数 g ( θ ) g(\theta) g(θ)的估计量,如果当 n → ∞ n\to\infty n→∞时,
只要样本 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn是 I I D IID IID的,且期望 E X = μ EX=\mu EX=μ存在,则由大数定律知,样本均值就是总体均值 μ \mu μ的相合估计,而与其具体分布无关。