集成学习——Boosting(AdaBoost,Gradient Boosting)

集成学习——Boosting

        与bagging方法不同,boosting中各个分类器串行生成,第Hn个分类器会受到Hn-1个分类器的影响。其主要思想是使下一个分类器更加关注于在上一个分类器上不能很好预测的数据。

AdaBoost

        其思想是对数据进行加权,数据权重越大则代表数据越难以被之前的分类器预测。通过权重使后续的分类器更关注于预测困难的数据。具体操作如下:        

        首先将数据集划分为m等份。对于首个分类器H0,每个数据集的权重相同,为1/m。经过T0预测后,减少预测正确的数据子集的权重,增加预测错误的数据子集的权重。权重更高的数据子集中的数据会更有机会被下一个分类器H1选中进行训练。以此类推,直到m个分类器全部训练结束,使用各个分类器在训练集上的预测结果对分类器赋予权重。结合每个分类器的加权结果得到AdaBoost的最终结果。

GradientBoosting

        在GradientBoosting中,模型用来减小之前模型的损失。对于首个模型,在训练数据集上进行拟合。而之后的模型则用于计算之前模型产生的损失,再将结果加入到整个模型中,来使预测值更接近于真实值。例如对于数据a=15,首个模型预测值为10,则其产生的错误值为5。第二个模型就用来计算真实数据与预测值的差距。假设第二个模型计算结果为3,则整体预测结果为10+3=13,优于首个模型单独预测的结果。后续的模型继续加入其中,计算真实值和预测结果之间的差距。

总结

        对于简单的学习模型(如:单层决策树),如果其预测效果超过50%,集成学习可以显著的提高模型的预测效果。集成学习在很多问题上都有非常好的表现。

        模型计算的数学推演可参考。当我们在谈论GBDT:从 AdaBoost 到 Gradient Boostinghttps://zhuanlan.zhihu.com/p/25096501

你可能感兴趣的:(机器学习,集成学习,boosting)