在统计推断中,我们往往希望利用从总体中抽取的有限样本来推断总体的特性,这一过程称为参数估计。总体参数(例如均值、方差、比例等)往往是未知的,通过样本数据,我们可以得到对这些参数的估计。
参数估计主要有两种形式:
点估计就是选择一个样本统计量作为总体参数的近似值。例如:
这种方法优点在于计算方便、直观;但缺点在于不能反映估计的不确定性,即只提供一个“最佳猜测”,而没有关于误差大小的信息。
常用的点估计方法有:
这些方法都有各自的优缺点,在具体应用时通常需要考虑样本量、总体分布假设等因素。
示例 1:总体均值的点估计
假设从某总体中随机抽取 n n n个样本,记为 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,…,xn;
方法: 用样本均值
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1∑nxi
作为总体均值 μ \mu μ 的点估计。
说明: 这种方法简单直观,但只提供了一个“最佳猜测”,没有反映出估计的误差范围。
示例 2:总体比例的点估计
对于二项分布问题,比如我们观察到 n n n次试验中有 x x x次成功,
方法: 点估计量为
p ^ = x n \hat{p} = \frac{x}{n} p^=nx
用以估计总体成功概率 p p p。
说明:
此方法在大样本时效果较好,且为无偏估计。
由于点估计忽略了抽样波动性,为了更全面地反映参数估计的可靠性,我们引入区间估计。区间估计不仅给出一个中心点,还给出了一个上下界,使得该区间在一定的置信水平下包含真实参数值。例如,当我们计算出某总体均值的95%置信区间为 [ a , b ] [a, b] [a,b]时,可以理解为在相同抽样条件下重复实验,约有95%的构造出的区间会包含总体均值。
以总体均值为例,构造置信区间通常包括以下步骤:
确定样本统计量及其抽样分布
若总体服从正态分布,则样本均值 x ˉ \bar{x} xˉ的抽样分布为正态分布;当总体方差未知且样本量较小时,则服从 t t t分布。
确定置信水平
例如设定置信水平为 95%,对应的显著性水平 α = 0.05 \alpha=0.05 α=0.05。
查找临界值
当总体方差已知时,根据标准正态分布查找 z α / 2 z_{\alpha/2} zα/2;若未知,则根据 t t t分布查找 t n − 1 ; α / 2 t_{n-1;\alpha/2} tn−1;α/2。
构造区间(后续有具体方法和题解示例,在本节3.4)
总体均值(已知总体方差)的双侧置信区间:
( x ˉ − z α / 2 σ n , x ˉ + z α / 2 σ n ) \left( \bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\; \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) (xˉ−zα/2nσ,xˉ+zα/2nσ)
总体均值(未知总体方差)的双侧置信区间:
( x ˉ − t n − 1 ; α / 2 s n , x ˉ + t n − 1 ; α / 2 s n ) \left( \bar{x} - t_{n-1;\alpha/2}\frac{s}{\sqrt{n}},\; \bar{x} + t_{n-1;\alpha/2}\frac{s}{\sqrt{n}} \right) (xˉ−tn−1;α/2ns,xˉ+tn−1;α/2ns)
其中 s s s 为样本标准差, n n n为样本容量。
区间估计不仅可以反映估计的不确定性,还能用于假设检验,当某个假设值不在构造的置信区间内时,就可以拒绝相应的原假设。
区间估计的目的是在点估计的基础上给出一个可信的范围,使得该区间在一定的置信水平下包含真实参数值。
示例 1:总体均值的置信区间(总体标准差已知)
【题目】设总体服从正态分布,已知总体标准差 σ = 10 \sigma = 10 σ=10;从中抽取样本容量 n = 36 n=36 n=36,样本均值 x ˉ = 50 \bar{x} = 50 xˉ=50。求该总体均值的95%置信区间。
【解题步骤】
因为总体标准差已知,且总体服从正态分布,样本均值的分布为
x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\Bigl(\mu,\; \frac{\sigma^2}{n}\Bigr) xˉ∼N(μ,nσ2)
95%置信水平对应的临界值为 z 0.025 ≈ 1.96 z_{0.025} \approx 1.96 z0.025≈1.96。
构造置信区间公式:
x ˉ ± z 0.025 σ n = 50 ± 1.96 10 6 \bar{x} \pm z_{0.025}\frac{\sigma}{\sqrt{n}} = 50 \pm 1.96\frac{10}{6} xˉ±z0.025nσ=50±1.96610
计算得:
1.96 10 6 ≈ 3.27 1.96\frac{10}{6} \approx 3.27 1.96610≈3.27
因此总体均值的95%置信区间约为 [ 50 − 3.27 , 50 + 3.27 ] = [ 46.73 , 53.27 ] [50−3.27, 50+3.27]=[46.73, 53.27] [50−3.27, 50+3.27]=[46.73, 53.27]。
示例 4:总体均值的置信区间(总体标准差未知)
适用情境: 当需要估计总体均值的范围,且总体标准差未知时,构造总体均值的置信区间。
方法: 使用样本标准差 s s s代替总体标准差 σ \sigma σ,并根据样本容量的大小选择适当的分布:
公式:
大样本:
X ˉ ± Z α / 2 × s n \bar{X} \pm Z_{\alpha/2} \times \frac{s}{\sqrt{n}} Xˉ±Zα/2×ns
其中, Z α / 2 Z_{\alpha/2} Zα/2为标准正态分布的临界值。
小样本:
X ˉ ± t α / 2 , n − 1 × s n \bar{X} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}} Xˉ±tα/2,n−1×ns
其中, t α / 2 , n − 1 t_{\alpha/2, n-1} tα/2,n−1 为自由度为 n − 1 n-1 n−1的 t t t分布的临界值。
示例:
【题目1】假设从某总体中抽取了 16 个样本,样本均值为 50,样本标准差为 8,要求总体均值的 95% 置信区间。
【解答步骤】
由于样本容量小于 30,使用 t t t分布。
计算自由度: n − 1 = 15 n - 1 = 15 n−1=15。
查找 t t t分布临界值:在自由度为 15 下, t 0.025 , 15 ≈ 2.131 t_{0.025, 15} \approx 2.131 t0.025,15≈2.131。
计算置信区间:
50 ± 2.131 × 8 16 = 50 ± 4.262 50 \pm 2.131 \times \frac{8}{\sqrt{16}} = 50 \pm 4.262 50±2.131×168=50±4.262
即 ( 45.738 , 54.262 ) (45.738, 54.262) (45.738,54.262)。
因此,总体均值的 95% 置信区间为 ( 45.738 , 54.262 ) (45.738, 54.262) (45.738,54.262)。
【题目2】设某总体服从正态分布,但总体标准差未知;从中抽取样本 n = 25 n = 25 n=25,得到样本均值 x ˉ = 100 \bar{x} = 100 xˉ=100 和样本标准差 s = 15 s = 15 s=15。求总体均值的95%置信区间。
【解题步骤】
当总体标准差未知时,样本均值的抽样分布服从 t t t分布,自由度为 n − 1 = 24 n n-1 = 24n n−1=24n。
95%置信水平下,查 t t t分布临界值得 t 24 , 0.025 ≈ 2.064 t_{24,0.025} \approx 2.064 t24,0.025≈2.064。
构造置信区间公式:
x ˉ ± t 24 , 0.025 s n = 100 ± 2.064 15 5 \bar{x} \pm t_{24,0.025}\frac{s}{\sqrt{n}} = 100 \pm 2.064 \frac{15}{5} xˉ±t24,0.025ns=100±2.064515
计算得:
2.064 × 15 5 = 2.064 × 3 = 6.192 2.064 \times \frac{15}{5} = 2.064 \times 3 = 6.192 2.064×515=2.064×3=6.192
因此总体均值的95%置信区间约为
[ 100 − 6.19 , 100 + 6.19 ] = [ 93.81 , 106.19 ] [100−6.19, 100+6.19]=[93.81, 106.19] [100−6.19, 100+6.19]=[93.81, 106.19]
示例 5:总体方差的置信区间
适用情境: 当需要估计总体方差(或标准差)的范围时,构造总体方差的置信区间。
方法: 假设总体服从正态分布,使用样本方差 s 2 s^2 s2 作为总体方差 σ 2 \sigma^2 σ2 的估计量。根据统计理论,统计量 ( n − 1 ) s 2 σ 2 \frac{(n-1)s^2}{\sigma^2} σ2(n−1)s2 服从自由度为 n − 1 n-1 n−1的卡方分布。由此,可构造总体方差的置信区间。
公式:
( ( n − 1 ) s 2 χ α / 2 2 , ( n − 1 ) s 2 χ 1 − α / 2 2 ) \left( \frac{(n-1)s^2}{\chi^2_{\alpha/2}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}} \right) (χα/22(n−1)s2,χ1−α/22(n−1)s2)
其中, χ α / 2 2 \chi^2_{\alpha/2} χα/22 和 χ 1 − α / 2 2 \chi^2_{1-\alpha/2} χ1−α/22分别为卡方分布在置信水平两端的临界值。
示例:
【题目1】假设从正态总体中抽取了 25 个样本,样本方差为 20,要求总体方差的 95% 置信区间。
【截图步骤】
计算自由度: n − 1 = 24 n - 1 = 24 n−1=24。
查找卡方分布临界值:在自由度为 24 下, χ 0.025 2 ≈ 39.36 , χ 0.975 2 ≈ 12.40 \chi^2_{0.025} \approx 39.36, \chi^2_{0.975} \approx 12.40 χ0.0252≈39.36,χ0.9752≈12.40
计算置信区间:
( 24 × 20 39.36 , 24 × 20 12.40 ) ≈ ( 12.21 , 38.71 ) \left( \frac{24 \times 20}{39.36}, \frac{24 \times 20}{12.40} \right) \approx (12.21, 38.71) (39.3624×20,12.4024×20)≈(12.21,38.71)
因此,总体方差的 95% 置信区间为 ( 12.21 , 38.71 ) (12.21, 38.71) (12.21,38.71)。
【题目2】设总体服从正态分布,从中抽取样本 n n n个,计算得到样本方差 s 2 s^2 s2。求总体方差 σ 2 \sigma^2 σ2 的 ( 1 − α ) (1-\alpha) (1−α)置信区间。
【解题步骤】
由于 ( n − 1 ) s 2 / σ 2 (n-1)s^2/\sigma^2 (n−1)s2/σ2服从卡方分布,自由度为 n − 1 n−1 n−1。
查表得 χ 2 \chi^2 χ2分布的上下临界值分别为 χ α / 2 2 ( n − 1 ) \chi^2_{\alpha/2}(n-1) χα/22(n−1)和 χ 1 − α / 2 2 ( n − 1 ) \chi^2_{1-\alpha/2}(n-1) χ1−α/22(n−1)。
则总体方差的置信区间为:
[ ( n − 1 ) s 2 χ 1 − α / 2 2 ( n − 1 ) , ( n − 1 ) s 2 χ α / 2 2 ( n − 1 ) ] \left[\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)},\; \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}\right] [χ1−α/22(n−1)(n−1)s2,χα/22(n−1)(n−1)s2]
这个公式给出了一个关于 σ 2 \sigma^2 σ2的区间估计。
总体方差的置信区间: 用于估计总体方差的范围,需假设总体服从正态分布,使用卡方分布构造置信区间。
总体标准差未知时总体均值的置信区间: 用于估计总体均值的范围,使用样本标准差代替总体标准差,根据样本容量选择使用标准正态分布或 t 分布构造置信区间。
除了传统的频率学派方法外,贝叶斯统计也提供了一种区间估计方法,称为可信区间(Credible Interval)。
贝叶斯可信区间:通过结合先验分布与样本数据得到后验分布,然后从后验分布中提取某一概率质量的区间。例如,在给定数据后,若后验分布的某个区间覆盖了参数 θ \theta θ的 95% 的概率,那么这个区间即为95%的可信区间。
这种方法与频率学派的置信区间概念不同,其含义是给定数据后参数落在该区间内的概率。
通过点估计和区间估计,我们不仅能得到总体参数的一个最佳猜测,还能定量描述由于抽样带来的不确定性,为决策和进一步分析提供依据。