集成学习

集成学习,又称多分类器系统,顾名思义,就是将多个分类器组合成一个强分类器,而多个分类器可以从训练不同的样本中产生。

因此,有一种有放回的采样方法(Bootstrap Samples)来生成不同的训练样本。
在这里插入图片描述
使用这种采样方法时,当n趋近正无穷时,可推导出抽到的概率为2/3。

下图是集成学习的基本流程:

集成学习_第1张图片

下面介绍两种集成学习的方式—Baggin和Boosting

以Bagging中Stacking方法为例,其类似于并联,通过堆叠第二层的方式来自动给各个分类器赋予权重。
集成学习_第2张图片
Boosting类似于串联,通过前一个分类器的性能来生成第二个分类器。
集成学习_第3张图片
将C1分错的数据交给C2训练
集成学习_第4张图片
由C3训练C1和C2分类结果不一致的数据,最后决策由三者共同决策。Boosting的特点是,训练样本是加权的,会着重去训练难分的样本,而且可以使用弱分类器作为基础分类器。

AdaBoost

AdaBoost是Boosting方法中的一种,特点就在于样本权重可以直接推导出来,而且训练误差上界可以越来越小,趋近于0。
集成学习_第5张图片

算法过程

集成学习_第6张图片

求取权重过程

左边为T+1时刻第i个样本的权重(刚开始各样本权重相同,后来不断调整),y为实际值,hT(x)为对应T时刻的预测结果,当预测和实际不一致时,该样本的训练权重就会增加。Z为权重和,除以Z来保证所有权重和为1。
集成学习_第7张图片
模型误差上界推导:

【H(xi) != yi】的意思是对应事件是否成立,值为1或0。求和之后便是错分的数量,除以m便是错误率。
集成学习_第8张图片
以此结合前面的式子可得:
集成学习_第9张图片
由于是串联性质,无法在宏观上求Z乘积的最小化,故每一次都最小化Z。

(该解法值得学习!!!)

集成学习_第10张图片
通过换元求解模型误差上界。
集成学习_第11张图片
集成学习_第12张图片
故误差的上限为一堆0~1之间的数相乘,会越来越接近0。

AdaBoost特点:

由于最小化Z用的是贪心算法,容易造成局部最优。
不会容易陷入过拟合。
可解释性底。

RegionBoost

该方法与之前不一样是因为采取了动态权重,根据输入的训练样本不同来改变分类器的权重。
集成学习_第13张图片
该方法思想是增加了一种分类器,用于区分 分的对和分的错的,用于计算不同样本在不同分类器下分类效果的可信度。

参考自清华大学数据挖掘课程~

你可能感兴趣的:(小白的机器学习)