Bootstrapping

Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样统计方法。自助法的名称来源于英文短语“to pull
oneself up by one’s bootstrap”
,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法,就是Bootstrap方法,为解决小子样试验评估问题提供了很好的思路。
1、自助法的基本思路
如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed
statistic)
的话,那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系,就如同观察统计量与真值间的关系,可表示为:
自助统计量::观察统计量<=>观察统计量::真值
其中,“::”表示二者间的关系,“<=>”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。
其中的再抽样是有返还的抽样(sampling with replacement)方式。假定有n个观察值,自助样本可按如下步骤获得:
①将每一观察值写在纸签上;
②将所有纸签放在一个盒子中;
        ③混匀。抽取一个纸签,记下其上的观察值;
        ④放回盒子中,混匀,重新抽取;
        ⑤重复步骤③和④n次,便可得到一个自助样本。重复上述抽样过程B次,便可得到B个自助样本。(引用自刘文忠老师的一篇论文,感觉这样讲的比较容易懂了)。

2、Bootstrap的数学表达
Bootstrapping_第1张图片


其中等号上面一个小三角号表示定义。
Bootstrapping_第2张图片

你可能感兴趣的:(ML)