对于总体的同一个参数 θ \theta θ,用不同的方法可构造出不同的估计量。这就产生一个问题:同一个参数的多个不同估计量何者为优?要评判估计量的优劣,就必须明确评判的标准。下面介绍几种常用标准。
设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本, θ \theta θ 为总体分布中的未知参数, Θ \Theta Θ 为参数空间, θ ^ = θ ^ ( X 1 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,...,X_n) θ^=θ^(X1,...,Xn) 为 θ \theta θ 的一个估计量。若有
E ( θ ^ ) = θ , ∀ θ ∈ Θ E(\hat{\theta})=\theta,\forall \ \theta \in \Theta E(θ^)=θ,∀ θ∈Θ
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计量。
若 E ( θ ^ ) ≠ θ E(\hat{\theta}) \neq \theta E(θ^)=θ,则称 E ( θ ^ ) − θ E(\hat{\theta})-\theta E(θ^)−θ 为估计量 θ ^ \hat{\theta} θ^ 的偏差,此时,称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的有偏估计量。
若 E ( θ ^ ) ≠ θ E(\hat{\theta}) \neq \theta E(θ^)=θ,但当样本容量 n → ∞ n \to \infty n→∞ 时,有
lim n → ∞ E ( θ ^ ) = θ \lim_{n \to \infty} E(\hat{\theta})=\theta n→∞limE(θ^)=θ
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的渐近无偏估计量。
设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本,无论 X X X 服从何种分布,都有
评判估计量仅有一个无偏性标准是不够的,还需要有其他标准来衡量估计量的优劣。
设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本, θ \theta θ 为总体分布中的未知参数, θ ^ = θ ^ ( X 1 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,...,X_n) θ^=θ^(X1,...,Xn) 为 θ \theta θ 的一个估计量。 θ ^ \hat{\theta} θ^ 的均方误差定义为
M S E ( θ ^ , θ ) ≜ E ( θ ^ − θ ) 2 MSE(\hat{\theta},\theta) \triangleq E(\hat{\theta}-\theta)^2 MSE(θ^,θ)≜E(θ^−θ)2
显然,估计量的均方误差愈小,估计的效果愈好。
由简单的推导可知
M S E ( θ ^ , θ ) = D ( θ ^ ) + ( E θ ^ − θ ) 2 MSE(\hat{\theta},\theta) = D(\hat{\theta})+(E\ \hat{\theta}-\theta)^2 MSE(θ^,θ)=D(θ^)+(E θ^−θ)2
若 θ ^ \hat{\theta} θ^ 为 θ \theta θ 的无偏估计量,则有
M S E ( θ ^ , θ ) = D ( θ ^ ) MSE(\hat{\theta},\theta) = D(\hat{\theta}) MSE(θ^,θ)=D(θ^)
因此,在 θ \theta θ 的所有无偏估计量中,均方误差最小准则等价于方差最小准则。所以对同一个参数 θ \theta θ 的两个无偏估计,可以通过比较它们的方差大小来判定优劣。
若在 θ \theta θ 的具有二阶矩的无偏估计量的全体中存在一个估计量 θ ^ ∗ \hat{\theta}^* θ^∗,使得对 θ \theta θ 的任意无偏估计量 θ ^ \hat{\theta} θ^ 都有
D θ ( θ ^ ∗ ) ≤ D θ ( θ ^ ) , ∀ θ ∈ Θ D_\theta(\hat{\theta}^*)\le D_\theta(\hat{\theta}), \forall \ \theta \in \Theta Dθ(θ^∗)≤Dθ(θ^),∀ θ∈Θ
则称 θ ^ ∗ \hat{\theta}^* θ^∗ 为 θ \theta θ 的一致最小方差无偏估计量。
设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的样本。已知 X ˉ \bar{X} Xˉ 和 S ∗ 2 S^{*2} S∗2 分别是 μ \mu μ 和 σ 2 \sigma^2 σ2 的无偏估计,则 X ˉ \bar{X} Xˉ 和 S ∗ 2 S^{*2} S∗2 也是 μ \mu μ 和 σ 2 \sigma^2 σ2 的一致最小方差无偏估计。
在可估函数的无偏估计量中,自然希望估计量的方差尽可能小,那么估计量的方差能小到什么程度呢?有无下界?若有的话,如何去求它?Rao-Cramer 不等式回答了这些问题。
设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本, T = T ( X 1 , . . . , X n ) T=T(X_1,...,X_n) T=T(X1,...,Xn) 是可估函数 g ( θ ) g(\theta) g(θ) 的无偏估计量,则有
D ( T ) ≥ [ g ′ ( θ ) ] 2 n I ( θ ) , ∀ θ ∈ Θ D(T)\ge \frac{[g'(\theta)]^2}{nI(\theta)}, \forall \ \theta \in \Theta D(T)≥nI(θ)[g′(θ)]2,∀ θ∈Θ
通常称上式为 Rao-Cramer 不等式,称不等式的右端为 g ( θ ) g(\theta) g(θ) 的无偏估计的 R-C 下界。
特别,当 g ( θ ) = θ g(\theta)=\theta g(θ)=θ 时,上式成为
D ( T ) ≥ 1 n I ( θ ) D(T)\ge \frac{1}{nI(\theta)} D(T)≥nI(θ)1
其中
I ( θ ) = E ( ∂ ln f ( X ; θ ) ∂ θ ) 2 > 0 I(\theta)=E\left(\frac{\partial\ln f(X;\theta)}{\partial\theta}\right)^2>0 I(θ)=E(∂θ∂lnf(X;θ))2>0
称为 Fisher 信息函数或 Fisher 信息量。
一致最小方差无偏估计的方差未必能达到 R-C 下界,这就引入了有效估计量的概念。
若 g ( θ ) g(\theta) g(θ) 的无偏估计 T = T ( X 1 , . . . , X n ) T=T(X_1,...,X_n) T=T(X1,...,Xn) 的方差达到 R-C 下界,则称 T T T 为 g ( θ ) g(\theta) g(θ) 的有效估计量。
[1] 《应用数理统计》,施雨,西安交通大学出版社。