集成学习算法

1.Bagging算法(并行集成):训练多个分类器取平均

典型算法:随机森林

数据随机选择选择特征(有放回选取)

2.Boosting算法(串行集成):从弱学习器开始加强,通过加权进行训练 ——数据权重

串行集成的步骤如下:假设一共有1000条数据,经过学习器A,预测正确的为950条,剩下错误的1000-950=50条输入到学习器B当中进行预测,预测正确的为30条,剩下错误的50-30=20条数据输入到学习器C中进行预测,以此类推,将所有分类器进行串行集成,预测正确之和为正确数据

集成学习算法_第1张图片

典型算法:Adaboost(自适应增强)、Xgboost

Adaboost算法:它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个分类器,同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

数据权重举例:

集成学习算法_第2张图片

3.stacking算法(并行集成):堆叠模型   ——分类器权重 

 算法原理:

①将训练数据D划分为两个不相交的子集D1,D2;

②用训练集的第一部分D1训练多个不同的基模型;

③将多个基模型用于预测训练集的第二部分D2;

④将基模型的预测结果当作输入,D2的样本标签当作学习目标,训练一个高层的模型。

集成学习算法_第3张图片

在多个分类器训练时会出现模型过拟合的现象,即要使用交叉验证

 

你可能感兴趣的:(集成学习)