统计学(45)-利用Bootstrap法估计置信区间

1、为什么要用Bootstrap呢?

我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?
中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积0.05所对应的分值了。
是不是就没有方法了呢?
事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。
Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

2、Bootstrap 估计的思想

统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体
假定我们从某所学校中随机抽样调查了20名学生的身高,打算通过这20人的身高估计该学校所有学生(如200 人)的身高。

image.png

如果采用常规的思路,则计算出20人身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为(163.2,169.2), 也就是说,有95%的信心认为(163.2,169.2) 区间包含了该学校所有学生的总体身高。

3、Bootstrap估计的思路

Bootstrap估计的思路就是从这20人中重复抽样。具体来说,以这20人作为抽样框,做1000次抽样(当然也可以是100次、2000次、甚至10000次等,视具体情况而定),有放回抽样!


image.png

(1)根据Bootstrap 抽样,可以对每次抽样都计算出一个均数。
(2)然后以这10个均数作为原始数据,求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计。
(3)对于95%置信区间,则分别计算出第2.5%和第97.5%的分位数,如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间,与常规方法计算的95%置信区间比较接近。

4、百分位数法

(1)百分位数法简单易懂,无须复杂计算,只要有了Bootstrap 样本及每个样本的统计量,找到相应的百分位数即可。
(2)它必须满足一个潜在的假定,即Bootstrap 抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。
(3)t法对于95%置信区间,确定0.025和0.975的百分位数,则95%置信区间为:


image.png
5、一个总结

传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量, Bootstrap 法就十分有用了。

6、参数推断

事实上,即使对于参数推断, Bootstrap 法也可以显示出与其同样的功效。
(1)计算两个中位数之差的置信区间
采用Bootstrap法的思路是:从样本数据中重复抽取1000次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5 百分位数和第97.5百分位数,这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。
(2)计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是:从样本数据中重复抽取1000次样本,每个样本都包含y和x, 每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 。最终可计算出1000个回归系数b。然后根据这1000 个回归系数,计算出它们的第2.5百分位数和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0, 则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(0,我不懂,是无效假设吗?)
回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂)

你可能感兴趣的:(统计学(45)-利用Bootstrap法估计置信区间)