机器学习:Bootstrap



Bootstrap


最近在看一篇论文 Training Deep Nets with Imbalanced and Unlabeled Data,主要是讲通过一种欠采样的方法解决DBN网络中数据不均衡的问题。其间该论文提出了一种解决方法,具体步骤如下

(i) compute an entropy-based measure on ultrasound images; 

(ii) select a small, diverse initial training data set; 

(iii) train a translational-DBN (tDBN) on this dataset; 

(iv)bootstrap this initial dataset and retrain the tDBN on the

training set expanded with fixed mistakes.

对于前面3步很好理解,对于第4步,开始一直没能理解bootstrap在这里是怎么个意思。现整理如下。


各种词典翻译


总结一下主要译法有:引导,自举,引导程序,自助法,解靴带,自益

自助法,统计雪上是指由观察数据计算随机再采样反应的数值分布的方法


paper中的理解


bootstrap法是指用原样本自身的数据抽样得出新的样本及统计量可以译成“自举”法吧,有的认为可译为:自抽样法。也就是通过既有样本生成更多有用的信息的做法。

“直观上就是:在已知数据的基础上通过用计算机来模拟N趋近于无穷大时候的情况把已知的DATA不断的重新SAMPLING, 从而在新的数据中得出原始数据的信息。再说的更简单更直观就是: 就是给你100个数据但是你觉得100个数据没办法真实反映样本的全貌你就把这100个数据重新随机的SAMPLE1000这样你就有了100*1000个数据点了你的样本量就会增大很多。”------抄来的。

以上取自于  http://bbs.pinggu.org/thread-302132-1-1.html  

Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间 ,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算, 即可获得置信区间。已经证明,在初始样本足够大的情况下,bootstrap抽样能够无偏得接近总体的分布。 (取自于 http://blog.sciencenet.cn/blog-255662-523462.html 里面有详细的例子,代码)



概率论与数理统计中


(本小节内容取自 概率论与数理统计 第四版 浙江大学 )


非参数bootstrap方法


设总体的分布F未知,但已经有一个容量为n的来自分布F的数据样本,自这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本称为bootstrap样本或称为自助样本。相继的、独立的自原始样本中取很多个bootstrap样本,利用这些样本对总体F进行统计推断。这种方法称为非参数bootstrap方法,又称自助法。。此方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要使用方法。


参数bootstrap方法


假设所研究的总体的分布函数F(x;p)的形式一直,但其中包含未知参数PP可以是向量)。现在已知有一个来自F(x;p)的样本 X1,X2,...,Xn 利用这一样本求出P(在F(x;p)下)的最大似然估计P’。在F(x;p)中以P’代替P得到F(x;p),节奏在F(x;p)中产生容量为n的样本 ,这种样本可以产生很多个,就可以利用这些样本对总体进行统计推断,其做法与非参数bootstrap方法一样,这种方法称为参数bootstrap



你可能感兴趣的:(bootstrap,机器学习)