参数估计就是用样本统计量$\hat{\theta }$去估计总体的参数$\theta$,用来估计总体参数的统计量称为估计量,根据一个具体样本计算出来的估计量的数值称为估计值。
基本原理
点估计
点估计就是用样本统计量$\hat{\theta }$的某个取值直接作为总体参数$\theta$的估计值。由于样本是随机的,由样本得到的估计值很可能不等于总体真值,所以需要说明点估计值与总体参数真值接近的程度。
区间估计
区间估计是在点估计的基础上,给出总体参数估计的一个区间,该区间通常由样本统计量加减估计误差得到。
例如,在重复抽样下,样本均值的数学期望等于总体均值,$E(\bar{X})=\mu$,标准差$\sigma_X=\frac{\sigma}{\sqrt{n}}$,可知$\bar{X}$取值落在$\mu$的左右2个标准差范围内的概率为0.95。但在进行参数估计时,情况恰好相反。$\bar{X}$是已知的,$\mu$是未知的,此时$\mu$被包含在以$\bar{X}$为中心的左右2个标准差的范围内,这种情况下,有95%的样本均值会落在$\mu$的2个标准差范围之内。也就是说,有95%的样本均值所构造的2个标准差的区间会包括$\mu$。
置信区间
由样本统计量所构造的总体参数的估计区间称为置信区间。将构造置信区间的过程重复多次,得到多个置信区间,在这些置信区间中,包含总体参数真值的置信区间所占的比例称为置信水平。常用的置信水平有95%和99%,相应的$\alpha$值为0.05和0.01。
关于置信区间,要注意:
1. 用95%的置信水平得到置信区间,我们不能说总体真值以95%的概率落在该区间内。因为总体真值是一个常数,在数轴上的位置是固定不动的;而置信区间却会随着不同的样本改变,就像一张为了捕捉总体真值而撒出的网。所以我们只能说置信区间有95%的概率包括了总体真值。
2. 以上所说的置信区间包括总体真值的概率是95%,这个概率是针对随机区间而言的,是指多次抽样得到的多个样本,所构造的多个区间中,有95%的区间包含总体真值。但是我们进行估计时,一般只抽取一个样本,由这个样本构造的置信区间就是一个特定的区间了。它可能是大多数包含真值的区间中的一个,也可能是少数不包含真值的区间中的一个,但是无论是哪一种,它要么包含真值,要么不包含,不存在“以多大的概率包含”这种说法。
估计量的评价
估计量是样本统计量,是由样本所构造的函数,这样的估计量有很多,那么究竟用样本的哪种估计量来估计总体参数才是最好的呢?评价估计量有3个标准:
1. 无偏性
估计量抽样分布的数学期望等于总体参数。如果$E(\hat{\theta})=\theta$,则称$\hat{\theta}$是$\theta$的无偏估计量。由统计量的抽样分布可知,$E(\bar{x})=\mu$,$E(p)=\pi$,$E(s^2)=\sigma^2$,所以$\bar{x}$、$p$、$s^2$分别是$\pi$、$\mu$、$\sigma^2$的无偏估计量。
2. 有效性
对于同一总体参数的2个无偏估计量,标准差更小的估计量更有效。
3. 一致性
随着样本量的增大,估计量的值越来越接近总体参数。有样本均值的抽样分布可知,样本均值抽样分布的标准差$s=\frac{\sigma}{\sqrt{n}}$,n越大,s越小,所以样本均值是总体均值的一致估计量。
一个总体参数的区间估计
总体均值的区间估计
在对总体均值进行区间估计时,需要考虑3个问题:①总体是否是正态分布;②总体方差是否已知;③大样本(n≥30)还是小样本(n<30)。
1. 正态总体、方差已知
样本均值经过标准化后的随机变量服从标准正态分布:
$$z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$$
则总体均值$\mu$在$1-\alpha$置信水平下的置信区间为:
$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$
可见,置信区间由2部分组成:点估计值$\bar{x}$和估计误差$z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$。
2. 正态总体、方差未知、大样本,或非正态总体、大样本
只要在大样本的条件下,就可以用样本方差代替总体方差,此时总体均值$\mu$的置信区间为:
$$\bar{x}\pm z_{\alpha/2}\frac{s}{\sqrt{n}}$$
3. 正态总体、方差未知、小样本
用样本方差代替总体方差,样本均值经标准化后的随机变量服从t分布:
$$t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \sim t(n-1)$$
总体均值$\mu$的置信区间为:
$$\bar{x}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$$
4. 总体均值区间的总结
总体比例的区间估计
由样本比例的抽样分布可知,当n充分大时,样本比例$p$的抽样分布可用正态分布近似:
$$p \sim N(\pi,\frac{\pi(1-\pi)}{n})$$
经过标准化后的随机变量服从标准正态分布:
$$z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}} \sim N(0,1)$$
所以在大样本的情况下,总体比例$\pi$的置信区间为:
$$p=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$$
由于上式中的$\pi$是未知的,需要估计的,所以要用样本比例$p$代替$\pi$:
$$p=z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}$$
总体方差的区间估计
由总体方差的抽样分布可知,在正态总体条件下,样本方差服从$\chi^2$分布:
$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$
于是有:
$$\chi^2_{1-\alpha/2}\leqslant \frac{(n-1)s^2}{\sigma^2}\leqslant \chi^2_{\alpha/2}$$
可求得总体方差$\sigma^2$的置信区间为:
$$\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\leqslant \sigma^2 \leqslant \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}$$
一个总体参数的估计总结
所使用的分布:
区间估计总结:
两个总体参数的区间估计
两个总体均值之差的区间估计
1. 独立样本
如果2个样本是从2个总体中独立抽取的,则称为独立样本。
1.1 正态总体、方差已知
如果2个总体均为正态分布,由抽样分布可知:
$$\bar{x_1}-\bar{x_2} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$$
经过标准化后,服从标准正态分布:
$$z=\frac{(\bar{x_1}-\bar{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
则均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$(\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
1.2 大样本、方差未知
n1≥30、n2≥30时,可用样本方差代替总体方差,此时均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$(\bar{x_1}-\bar{x_2})\pm z_{\alpha/2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$
1.3 正态总体、方差未知、小样本
1.3.1 方差未知且相等
$\sigma _1^2=\sigma_2^2$,用$s_1^2$和$s_2^2$来估计,需要组合起来,得到合并估计量:
$$s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$$
经过标准化后服从t分布:
$$\frac{(\bar{x_1}-\bar{x_2})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$$
均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2){s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
1.3.2 方差未知且不等
$\sigma _1^2\neq \sigma_2^2$,均值之差经标准化后近似服从自由度为$\nu$的t分布,其中
$$\nu =\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}$$
则均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(\nu)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$$
2. 配对样本
配对样本是指一个样本中的数据和另一个样本中的数据相对应。
2.1 大样本
均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$\bar{d}\pm z_{\alpha/2}\frac{\sigma_d}{\sqrt{n}}$$
其中$d$为对应数据的差值,$\bar{d}$为差值的均值,$\sigma_d$为差值的标准差,当$\sigma_d$未知时,可用样本差值的标准差$s_d$代替。
2.2 小样本、正态总体
均值之差$\bar{x_1}-\bar{x_2}$的置信区间为:
$$\bar{d}\pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}}$$
两个总体比例之差的区间估计
有抽样分布可知,从2个二项分布总体中抽出2个独立的样本,样本比例之差服从正态分布:
$$p_1-p_2 \sim N(\pi_1-\pi_2,\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2})$$
经过标准化后,服从标准正态分布:
$$z=\frac{(p_1-p_2)-(\pi_1-\pi_2)}{\sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2}}} \sim N(0,1)$$
由于$\pi_1$和$\pi_2$未知,可用$p_1$和$p_2$代替,则总体比例之差$\pi_1-\pi_2$的置信区间为:
$$(p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$
两个总体方差之比的区间估计
有抽样分布可知,在正态总体条件下,2个样本方差之比$\frac{s_x^2}{s_y^2}$服从F分布:
$$\frac{s_x^2/\sigma_1^2}{_y^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$$
则有:
$$F_{1-\alpha/2} \leqslant \frac{s_x^2/\sigma_1^2}{s_y^2/\sigma_2^2}\leqslant F_{\alpha/2}$$
可求出总体方差之比$\frac{\sigma_1^2}{\sigma_2^2}$的置信区间为:
$$\frac{s_1^2/s_2^2}{F_{\alpha/2}} \leqslant \frac{\sigma_1^2}{\sigma_2^2} \leqslant \frac{s_1^2/s_2^2}{F_{1-\alpha/2}} $$
两个总体参数的估计总结
所使用的分布:
区间估计总结:
样本量的确定
样本量的确定与可容忍的的置信区间的宽度以及所设置的置信水平有关。
估计总体均值时样本量的确定
总体均值$\mu$的置信区间由样本均值$\bar{x}$和估计误差$z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$两部分组成,估计误差的大小取决于$z_{\alpha/2}$、总体方差$\sigma$和样本量n,而$z_{\alpha/2}$的值又取决于置信水平$1-\alpha$。因此,在给定了置信水平和总体标准差$\sigma$后,我们希望达到的估计误差为$E$,它们与样本量的关系如下:
$$E=z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$
可解出估计误差等于$E$时,所需的样本量:
$$n=\frac{z_{\alpha/2}^2\sigma^2}{\sqrt{E^2}}$$
在实际应用时,如果$\sigma$的值不知道,可以用样本的标准差$s$来代替。
根据样本量的公式,我们可以看出:
1. 样本量与置信水平成正比,置信水平越高,所需样本量越大;
2. 样本量与总体方差成正比,总体差异越大,所需样本量越大;
3. 样本量与估计误差的平方成反比,可接受的估计误差越大,样本量越小。
估计总体比例时样本量的确定
与确定估计总体均值时的样本量的方法相似,总体比例$\pi$置信区间的估计误差为$z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$,它取决于置信水平$1-\alpha$、总体比例$\pi$和样本量$n$,而总体比例的值是固定的,因此,对于给定的置信水平,希望达到的估计误差为$E$,则
$$E=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$$
可求出样本量公式为:
$$n=\frac{z_{\alpha/2}^2\pi(1-\pi)}{E^2}$$
在实际应用时,如果$\pi$的值不知道,也可以用样本比例$p$来代替。