Bagging算法细讲

Bagging算法:让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现,训练之后可得到一个预测函数序列h_1,⋯ ⋯h_n ,最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。

思想:

1).从原始样本集中用Bootstrap采样选出n个样本(新)

2).对这n个样本建立分类器

3).重复1-2步,建立m个分类器
4).将Bootstrap采样选出n个样本(m个新的样本数据集),在m个分类器上进行分类

5).把m个分类器分类的结果进行投票,得到最多的为最终的类别。

注意:Bootstrap采样名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:
1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 
2) 根据抽出的样本计算给定的统计量T。 
3) 重复上述N次(一般大于1000),得到N个统计量T。

4) 计算上述N个统计量T的样本方差,得到统计量的方差。

 
Bagging算法细讲_第1张图片
  

                                                Fig 1   Schematics of Bagging


你可能感兴趣的:(Bagging算法细讲)