集成学习

集成学习_第1张图片
集成学习有三类Bagging,Boosting,Stacking。

1.Bagging
集成学习_第2张图片
并行学习一系列的弱学习器(实验证明以树模型作为弱学习器比较好)。
要想集成的结果比较好,不同的弱学习器差异越大越好(这个在机器学习技法笔记上有详细的推导)。为了体现差异性,一般采取数据采样随机,特征选择随机。当然还有很多其他的方法使随机性得到体现。
集成学习_第3张图片
1.由于我们随机选择特征,所以特征多不是我们的问题。
2.为什么能选出比较重要的特征的?
集成学习_第4张图片
我们用A,B,C,D四个特征训练一个模型,计算其错误率为e1,然后干扰B特征得到特征B’,用A,B’,C,D训练一个模型,计算其错误率为e2,如果e1和e2相似,则证明B特征不重要。
集成学习_第5张图片
理论上越多的树效果越好,但是实际上基本超过一定数量就差不多就上下浮动了。

2.Boosting
Boosting相当于对树模型进行串联,A树进行预测得到的结果与真实结果有一个残差,然后B树对A树的残差进行预测,然后C树对A树和B树与真实结果的残差进行预测,一直这样下去。
集成学习_第6张图片

3.Stacking
集成学习_第7张图片

集成学习_第8张图片
第一个阶段选取任意多的分类器,每个分类器都有各自的结果,然后第二阶段将第一阶段的结果当做特征数据进行输入进行训练。

你可能感兴趣的:(机器学习实战学习笔记)