置信区间(confidence interval)

上一篇关于假设检验和P值的文章最后提到了置信区间,本篇文章对置信区间的相关知识进行说明。所谓的置信区间,顾名思义,它实际上就是一种区间估计,首先来看看什么是点估计,什么是区间估计。

首先声明,此篇的内容是来自"马同学高等数学"微信公众号的内容。

1、点估计与区间估计

以前很流行一种刮刮卡:

                                  置信区间(confidence interval)_第1张图片            

游戏规则是(假设只有一个大奖):

  • 大奖事先就固定好了,一定印在某一张刮刮卡上

  • 买了刮刮卡之后,刮开就知道自己是否中奖

那么我们起码有两种策略来刮奖:

  • 点估计:买一张,这就相当于你猜测这一张会中奖

  • 区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖

很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。

接下来,我们看看置信区间是如何进行区间估计的。

2、置信区间

我们通过对人类身高的估计来讲解什么是置信区间。

2.1、上帝视角

对于人类真实的平均身高,我们是没有办法知道的,因为几乎不可能把每个人都统计到。但这个数据肯定是真实存在的,我们可以说,上帝知道。在这里我们引入了上帝视角,即上帝看到的人类身高的真实分布。

假设人类的身高分布服从如下正态分布(\mu = 145,\sigma = 1.4):             X \sim N(145,1.4^{2})

也就是说全体人类的平均身高为145cm,为了表示只有上帝可以看到,我把真实分布用虚线来表示:            

                              置信区间(confidence interval)_第2张图片

2.2、点估计

作为愚蠢的人类,我们只能在人群中抽样统计:

                                          置信区间(confidence interval)_第3张图片

比如下面是一次抽样数据,我把算出来的样本均值(记作 \hat \mu )画在图上(蓝色的点):

                                         置信区间(confidence interval)_第4张图片

\hat \mu就是对\mu的一次点估计,通过一次次的抽样,我们可以算出不同的身高均值的点估计:

                           置信区间(confidence interval)_第5张图片

如果我们关闭上帝视角,我们分辨不出哪个点估计更好:

                          置信区间(confidence interval)_第6张图片

此时,置信区间就闪亮登场了。

2.3、置信区间

置信区间,提供了一种区间估计的方法。下面采用 95% 置信区间来构造区间估计(什么是 95% 置信区间,这个我们后面解释):

                              置信区间(confidence interval)_第7张图片

通过 95% 置信区间构造出来的区间,我们可以看到,基本上都包含了真实的 \mu ,除了红色的那根。

关闭上帝视角,我们仍然不知道哪一个区间估计更好:

                            置信区间(confidence interval)_第8张图片

但是,和点估计比较:

  • 点估计和区间估计,都不知道哪个点或者哪个区间更好

  • 但是,按照 95% 置信区间构造出来的区间,如果我构造出100个这样的区间,其中大约有95个会包含  \mu

这就好像用渔网捞鱼,我知道一百次网下去,大约会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:

                             置信区间(confidence interval)_第9张图片

剩下的问题就是 95% 置信区间是如何构造的。

3、95%置信区间

假设人群的身高服从:       X \sim N(\mu,\sigma^{2})    其中\mu未知,\sigma已知。我们不断对人群进行采样,样本的大小为 n ,样本的均值:

                                                                

根据大数定律和中心极限定律, M 服从:   

                                                            

我们可以算出以  \mu 为中心,面积为0.95的区间,如下图:

                                    置信区间(confidence interval)_第10张图片

即:

                                                        

也就是, M 有 95% 的几率落入此区间:

                          置信区间(confidence interval)_第11张图片

我们以 1.96 \frac{\sigma}{\sqrt{n}} 为半径做区间,就构造出了 95% 置信区间。按这样构造的100个区间,其中大约有95个会包含\mu

 

                              置信区间(confidence interval)_第12张图片

那么,只有一个问题了,我们不知道、并且永远都不会知道真实的 \mu 是多少。我们就只有用  \hat \mu来代替 \mu :

                                             

总结一下:

  • 置信区间要求估计量是个常数

  •  95% 也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整

参考文献:

如何理解置信区间                  https://mp.weixin.qq.com/s/MWhhOmsVm7tLwXKyUho6fA

你可能感兴趣的:(统计学概念)