参数估计是数理统计中重要的基本问题之一。通常,称参数的可容许值的全体为参数空间,并记为 Θ \Theta Θ。所谓参数估计就是由样本对总体分布所含的未知参数做出估计。另外,在有些实际问题中,由于事先并不知道总体 X X X 的分布类型,而要对其某些数字特征,如均值、方差等做出估计,习惯上也把这些数字特征称为参数,对它们进行估计也属于参数估计范畴。
设总体 X X X 的分布函数是 F ( x ; θ 1 , . . . , θ l ) F(x;\theta_1,...,\theta_l) F(x;θ1,...,θl),其中 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 是未知参数, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是来自总体 X X X 的样本, x 1 , . . . , x n x_1,...,x_n x1,...,xn 是相应的样本值,参数点估计就是研究如何构造适当的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn),并分别用观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn) 作为未知参数 θ i \theta_i θi 的估计。
通常,称用作估计的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn) 为估计量,称其观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn) 为估计值。
由于对不同的样本值,得到的参数估计值往往不同,因此,点估计问题的关键在于构造估计量的方法。下面介绍求估计量的一些常用方法。
设总体 X X X 的分布中含有 l l l 个未知参数 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl,又设总体 X X X 的前 l l l 阶原点矩 α k = E ( X k ) ( k = 1 , . . . , l ) \alpha_k=E(X^k)(k=1,...,l) αk=E(Xk)(k=1,...,l) 存在,且是 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 的函数,即 α k = α k ( θ 1 , . . . , θ l ) \alpha_k=\alpha_k(\theta_1,...,\theta_l) αk=αk(θ1,...,θl),令
α k ( θ ^ 1 , . . . , θ ^ l ) = A k , k = 1 , . . . , l \alpha_k(\hat{\theta}_1,...,\hat{\theta}_l)=A_k,\quad k=1,...,l αk(θ^1,...,θ^l)=Ak,k=1,...,l
解此方程组可得 θ ^ 1 , . . . , θ ^ l \hat{\theta}_1,...,\hat{\theta}_l θ^1,...,θ^l,并将它们分别作为 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 的估计量。这种求估计量的方法称为矩估计法,用矩估计法求得的估计量称为矩估计量。
例:设总体 X X X 的二阶矩存在, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本,求总体均值 μ \mu μ 与总体方差 σ 2 \sigma^2 σ2 的矩估计。
解:因 α 1 = μ , α 2 = σ 2 + μ 2 \alpha_1=\mu, \alpha_2=\sigma^2+\mu^2 α1=μ,α2=σ2+μ2,令 { μ ^ = A 1 = X ˉ σ ^ 2 + μ ^ 2 = A 2 = 1 n ∑ i = 1 n X i 2 \begin{cases} \hat{\mu}=A_1=\bar{X} \\ \hat{\sigma}^2+\hat{\mu}^2=A_2=\frac{1}{n}\sum_{i=1}^n X_i^2 \end{cases} {μ^=A1=Xˉσ^2+μ^2=A2=n1∑i=1nXi2
解得 μ \mu μ 与 σ 2 \sigma^2 σ2 的矩估计分别为
μ ^ = X ˉ \hat{\mu}=\bar{X} μ^=Xˉ σ ^ 2 = A 2 − X ˉ 2 = S 2 \hat{\sigma}^2=A_2-\bar{X}^2=S^2 σ^2=A2−Xˉ2=S2
以下用 X = ( X 1 , . . . , X n ) T \boldsymbol{X}=(X_1,...,X_n)^T X=(X1,...,Xn)T 表示样本, x = ( x 1 , . . . , x n ) T \boldsymbol{x}=(x_1,...,x_n)^T x=(x1,...,xn)T 表示样本点, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 表示样本分布。
极大似然法的提出是基于如下的想法:
当给定 θ \theta θ 时, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 度量样本 X \boldsymbol{X} X 在 x \boldsymbol{x} x 点发生的可能性。对于样本空间中的两个不同样本点 x 1 , x 2 ∈ X \boldsymbol{x}_1, \boldsymbol{x}_2 \in \mathcal{X} x1,x2∈X,如果有 f ( x 1 ; θ ) > f ( x 2 ; θ ) f(\boldsymbol{x}_1;\theta) > f(\boldsymbol{x}_2;\theta) f(x1;θ)>f(x2;θ),自然会认为样本 X \boldsymbol{X} X 更可能在 x 1 \boldsymbol{x}_1 x1 点发生。
现在换个角度来看待 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ)。当给定样本点 x \boldsymbol{x} x 时,对参数空间中的两个不同参数 θ 1 , θ 2 ∈ Θ \theta_1,\theta_2 \in \Theta θ1,θ2∈Θ,如果有 f ( x ; θ 1 ) > f ( x ; θ 2 ) f(\boldsymbol{x};\theta_1) > f(\boldsymbol{x};\theta_2) f(x;θ1)>f(x;θ2),那么会认为样本点 x \boldsymbol{x} x 更像是来自总体 f ( X ; θ 1 ) f(\boldsymbol{X};\theta_1) f(X;θ1),所以,数 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 的大小可作为参数 θ \theta θ 对产生样本观察值 x \boldsymbol{x} x 有多大似然性的一种度量。
当给定样本点 x \boldsymbol{x} x 时,称 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 为 θ \theta θ 的似然函数,记为 L ( θ ; x ) L(\theta;\boldsymbol{x}) L(θ;x),即
L ( θ ; x ) = f ( x ; θ ) = { ∏ i = 1 n p ( x i ; θ ) , 总体 X 为离散型随机变量 ∏ i = 1 n f ( x i ; θ ) , 总体 X 为连续型随机变量 L(\theta;\boldsymbol{x})=f(\boldsymbol{x};\theta)=\begin{cases} \prod_{i=1}^np(x_i;\theta), & 总体 X 为离散型随机变量 \\ \prod_{i=1}^nf(x_i;\theta), & 总体 X 为连续型随机变量 \end{cases} L(θ;x)=f(x;θ)={∏i=1np(xi;θ),∏i=1nf(xi;θ),总体X为离散型随机变量总体X为连续型随机变量
而称 ln f ( x ; θ ) \ln f(\boldsymbol{x};\theta) lnf(x;θ) 为对数似然函数,记为 ln L ( θ ; x ) \ln L(\theta;\boldsymbol{x}) lnL(θ;x)。
若有统计量 θ ^ ≏ θ ^ ( X ) \hat{\theta}\bumpeq \hat{\theta}(\boldsymbol{X}) θ^≏θ^(X),使得
L ( θ ^ ( x ) ; x ) = sup θ ∈ Θ { L ( θ ; x ) } L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{L(\theta;\boldsymbol{x})\} L(θ^(x);x)=θ∈Θsup{L(θ;x)}
或等价的,使得
ln L ( θ ^ ( x ) ; x ) = sup θ ∈ Θ { ln L ( θ ; x ) } \ln L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{\ln L(\theta;\boldsymbol{x})\} lnL(θ^(x);x)=θ∈Θsup{lnL(θ;x)}
则称 θ ^ ( X ) \hat{\theta}(\boldsymbol{X}) θ^(X) 为参数 θ \theta θ 的极大似然估计量(Maximum Likelihood Estimators, MLE)。
例:设总体 X ∼ P ( λ ) , λ > 0 X \sim P(\lambda),\lambda>0 X∼P(λ),λ>0,试求参数 λ \lambda λ 的极大似然估计量。
解: X X X 的概率函数为
P { X = x } = λ x x ! e − λ , x = 0 , 1 , 2 , . . . P\{X=x\}=\frac{\lambda^x}{x!}e^{-\lambda},\quad x=0,1,2,... P{X=x}=x!λxe−λ,x=0,1,2,...
故 λ \lambda λ 的似然函数为
L ( λ ) = ∏ i = 1 n ( λ x i x i ! e − λ ) = e − n λ λ ∑ i = 1 n x i ∏ i = 1 n ( x i ! ) L(\lambda)=\prod_{i=1}^n (\frac{\lambda^{x_i}}{x_i!}e^{-\lambda})=e^{-n\lambda}\frac{\lambda^{\sum_{i=1}^nx_i}}{\prod_{i=1}^n(x_i!)} L(λ)=i=1∏n(xi!λxie−λ)=e−nλ∏i=1n(xi!)λ∑i=1nxi
对数似然函数为
ln L ( λ ) = − n λ + ln λ ∑ i = 1 n x i − ∑ i = 1 n ln ( x i ! ) \ln L(\lambda)=-n\lambda+\ln \lambda \sum_{i=1}^nx_i-\sum_{i=1}^n \ln(x_i!) lnL(λ)=−nλ+lnλi=1∑nxi−i=1∑nln(xi!)
令
∂ ln L ( λ ) ∂ λ = − n + 1 λ ∑ i = 1 n x i = 0 \frac{\partial \ln L(\lambda)}{\partial \lambda}=-n+\frac{1}{\lambda}\sum_{i=1}^nx_i=0 ∂λ∂lnL(λ)=−n+λ1i=1∑nxi=0
该似然方程有唯一解 λ ^ = 1 n ∑ i = 1 n x i = x ˉ \hat{\lambda}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x} λ^=n1∑i=1nxi=xˉ,又因
∂ 2 ln L ( λ ) ∂ λ 2 ∣ λ = x ˉ < 0 \frac{\partial^2 \ln L(\lambda)}{\partial \lambda^2}|_{\lambda=\bar{x}}<0 ∂λ2∂2lnL(λ)∣λ=xˉ<0
故 λ \lambda λ 的极大似然估计量为 λ ^ = X ˉ \hat{\lambda}=\bar{X} λ^=Xˉ。
[1] 《应用数理统计》,施雨,西安交通大学出版社。