集成学习原理(简单易懂)

一、概念

集成学习主要是指通过训练若干个个体学习器,通过一定的结合策略,形成一个强学习器

二、集成学习主要解决两个问题

如何得到若干个个体学习器
如何选择一种结合策略形成强学习器
同质学习器:指所有的学习器都相同,比如所有的学习器都是者决策树
异质学习器:指通过使用不同的学习器,比如对训练集使用逻辑回归、决策树等
同质学习器包含:bagging和boosting算法

三、bagging算法

bagging算法是指各学习器之间不存在强依赖关系,可以并行运行。
bagging算法是有放回的自助采样法。比如每次从训练集随机抽取1个样本,第二次再把第一个样本放回,再抽取第二个样本,依次类推,抽取m个样本。这样每次抽取的m个样本集都不同,可以得到不同的弱学习器
随机森林也是bagging算法,不同是使用的学习器是决策树以及除了样本随机以外还有特征随机。

四、boosting算法

boosting算法各学习器之间有强依赖关系,必须串行运行。代表的算法有AdaBoost和提升树。其中提升树运用做广泛的是梯度提升树。

五、模型融合

1.平均法:对用于回归问题,包括算术平均法、加权平均法
2.投票法:多用于分类问题
相对多数投票法,即少数服从多数
绝对多数投票法,除了少数服从多数外,票数还要过半
加权多数投票法,和加权平均法类似
3.stacking
stacking有2层学习器,第一层学习器训练集的预测结果作为第二层的输入,第一层学习器测试集的结果作为第二层的测试集。

附思维导图:
集成学习原理(简单易懂)_第1张图片

你可能感兴趣的:(数据分析,机器学习)