数据挖掘算法---bagging和boosting集成的区别

bagging和boosting代表两类集成学习算法;其中bagging是个体学习器之间不存在强依赖关系,可以同时生成的并行化方法。boosting适用于个体学习器之间存在强依赖关系,必须串行生成的序列化方法。

区别

1、样本选择上

  bagging:训练集是在原始数据集中采用随机有放回的方式选取的,从原始数据集中选出的各轮训练集之间是相互独立的;

  boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化,而权值是根据上一轮的分类结果进行调整;

2、样例权重

  bagging:使用均匀取样,每个样例的权重相等;

  boosting:根据错误率调整样例的权重,错误率越大则权重越大;

3、预测函数

  bagging:所有预测函数的权重相等;

  boosting:每个弱分类器都有相应的权重,分类误差小的分类器有更大的权重;

4、并行计算

  bagging:各个预测函数可以并行生成

  boosting:各个预测函数需要顺序生成,因为后一个模型的参数需要上一个模型的结果

你可能感兴趣的:(数据挖掘)