Ensemble Learning

Philosophy:

通过在不同数据子集的学习,得到简单的规则,让后通过合并简单规则,生成最终的规则。

集成学习为什么要在数据子集而不是大数据上学习?

只有在数据子集上才能学到简单的规则,而在大数据上则不能。

如何挑选数据子集?

均匀采样。

如何集成?

例如:求Mean;

解释 Bagging

Bagging (也叫 bootstrap aggregation)是集成学习的特殊版本,也就是mean的思想,先采集不同的数据子集,然后在各个子集上
学习弱分类器,求多个弱分类器的平均预测值。一般不建议在高bias的baseline模型上使用bagging.

解释 Boosting

不再均匀地选择训练数据,而是通过考虑数据的分布D,选择“困难”的数据(类比我们人类学习的时候,主要精力学不会的知识,已经学会的知识就花更少的精力。)Voting过程也不是简单地平均,而是通过某种标准进行weighted mean

什么是weak learner?

只要比随机猜测好,就是weak learner.

请解释什么是Adaboost?

Adaboost是采用boosting思想的一种具体的算法。其特色是一种线性加权模型。如下图:每个弱分类器对数据集中有各自的样本权重,最终几个弱分类器按照“某一系数”进行线性加权,形成最后的非线性决策平面。这个过程其实有两种加权:1.样本权重; 2.分类器权重。

Ensemble Learning_第1张图片
image.png

Adaboost算法中最终集成公式中的alpha系数的公式中为什么采用ln自然对数?

我也没搞懂,这里只是沿用书本中的公式,需要进一步查阅paper进行相关理论的学习。

你可能感兴趣的:(Ensemble Learning)