[读书笔记]置信区间

目录

置信区间是什么鬼？

怎样构建置信区间？

阅读本文，需要对抽样、总体、抽样分布有一定的了解，可以参考：[读书笔记] 关于样本和总体，需要了解哪些？

置信区间是什么鬼？

我们知道，点估计量是对总体参数做出的最好估计。问题是，估计或多或少都是会有偏差的，原因是抽样带有随机性。如果说使用点估计量估计总体参数有偏差，那用一个区间来代替一个具体的估计量好像能让人好接受一些。举个例子，相比于“某个地区男性的平均身高是175cm”，“某个地区男性的平均身高介于173cm和176cm之间”是不是能够容纳更多的误差范围。

以均值为例，我们希望从均值抽样分布中，选取一个区间(a ,b)，使得总体均值介于a和b之间，将这个概率记作：。那么，(a, b)被称为置信区间，这个概率被称为置信水平（置信水平通常为95%）。通俗的理解就是：我们希望有95%的概率使得总体均值是在(a, b)之间，如下图所示。

置信区间

怎样构建置信区间？

构建置信区间，一般有下面四个步骤：

1. 选择总体统计量

也就是说，我们希望为那个统计量构建置信区间。常见的如均值和比例。比如身高平均值、药效持续时长、治愈率等。选择好统计量，则可以开始进行下一步。

2. 求出所选统计量的抽样分布

为了求出统计量的抽样分布，需要知道其期望、方差以及分布。以均值为例（我们构建总体均值的置信区间），我们知道对于均值抽样分布(推导过程，详见前文链接)：

知道了期望和方差，下面就需要知道抽样分布了。我们知道，根据中心极限定理，当样本很大的时候，均值抽样分布符合正太分布。那如果样本比较小的时候呢？答案是：当样本比较小的时候，均值抽样分布符合t分布。用数学方法表示就是：

样本很大的时候，。这里，尽管我们不知道总体的方差，但可以用总体方差的点估计量来估计。因此，改写为：
样本比较小的时候，。这里，v是表示自由度，且，其中n为样本大小。（这里不对t分布做更多的讨论）

3. 决定置信水平

置信水平表明，我们有多大的信心使得总体统计量位于区间(a, b)内。常用的置信水平是95%，需要注意的是：置信水平越高，区间越宽，置信区间包含总体统计量的几率也就越大。但是如果置信区间过大，就会失去其意义。举例来说，“某个地区男性的平均身高介于100cm和200cm之间”，这个概率几乎可以说是100%，但是这样的论断，完全没有实际的意义。现在确定了置信区间，最后就剩下求解置信上下限了。

4. 求出置信上下限

这里分别来看下，当均值抽样分布符合正太分布和t分布的时候，如何求解。

均值抽样分布符合正太分布，且置信水平为95%时：
我们已知，将其标准化后得到：

查表可得: 当时，；当时，。因此，我们需要求解下面的不等式，其中用均值点估计量替换，用方差点估计量替换：

到此为止，就求出了置信水平为95%下的置信区间为：
均值抽样分布符合t分布，且置信水平为95%时：
我们已知，将其标准化后得到：

求解时，我们将和分别用均值和方法的点估计量代入即可。类似的，变换不等式则可以求出置信区间为：，其中t通过查表得出。