机器学习算法——集成学习4(Bagging)

一、理论

Bagging是并行式集成学习方法最著名的代表,采用自助采样法。

自助采样法是给定包含m个样本的数据集D,对它进行采样产生数据集D^{'},每次随机从D中挑选一个样本,将其拷贝放入D^{'},然后再将样本放回初始数据集D中,使得该样本在下次采样时仍可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D^{'},这就是自助采样的结果。这样会造成D中有一部分样本会在D^{'}中多次出现,而有一部分样本不出现,可以做一个简单的估计,样本在m次采样中始终不被采到的概率是(1-\frac{1}{m})^m,取极限得到:

你可能感兴趣的:(集成学习,机器学习,算法,集成学习)