置信区间

关于置信区间,一种普遍的错误理解是:总体待估计参数(比如说均值)以一定的概率落在置信区间内。这种理解的错误在于,总体的待估计参数是确定量而非随机量,而对于确定量来说,其落在某个区间内的概率非0即1.

正确的理解是:以相同的抽样方式,获得N组抽样样本,每一组抽样样本点数为M,对于每一组抽样样本,按某一置信度,比如说95%,计算出置信区间,那么将会有0.95*N组所计算出来的置信区间中包含有总体待估计参数值。

下面我们以具体的实验来说明这个问题。 例:以掷均匀骰子为例,X表示骰子朝上的数值,那么X概率分布为:
置信区间_第1张图片
下面我们进行实验。实验主要步骤如下:
1、 按照骰子的分布,随机生成M=1000个随机数作为采样样本,求出样本平均值以及95%置信区间,判断真实均值是否在置信区间中。
2、重复1的过程 N=1000次。
3、统计出真实均值在置信区间中的次数cnt,计算比值rate=cnt/N。
4、重复1~3步骤100次。

实验结果可以看出:对于每一次实验,1000组采样中,有950次左右置信区间会包含真实值。

综上,不同的样本集具有不同的置信区间,置信区间是随机变量。那么,求某一个样本集的置信区间究竟有什么意义呢?在实际应用中,当我们需要研究总体的某些特征时,以总体的均值为例,由于无法获得全体数据,我们通过采样来获得样本,样本均值作为总体均值的一个点估计,而该样本的置信区间作为总体均值的一个区间估计。这里我们以95%置信度为例,那么由这个样本计算出来的95%置信区间能够说明什么呢?通过上面实验,1000个样本集计算出来的1000个置信区间,其中有大约950个置信区间包含有真实值,换句话说,当我们由具体某一个样本集计算出来的置信区间包含有真实值的可能性为0.95。所以利用置信区间可以一定程度上对于真实值的取值范围有所了解。

你可能感兴趣的:(算法)