ML《集成学习(二)Boosting之Adaboosting》

一:集成学习
集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,也就是平常所说的“三个臭皮匠顶个诸葛亮”的道理。下面从两个方面对集成学习进行简要介绍。

它有两个大种类:根据个体学习器的生成方式,目前的集成学习方法大致可以分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表算法是Boosting系列的算法;以及个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表算法是Bagging和随机森林(上一博文经学习过了)。
ML《集成学习(二)Boosting之Adaboosting》_第1张图片
ML《集成学习(二)Boosting之Adaboosting》_第2张图片
二:AdaBoosting
ML《集成学习(二)Boosting之Adaboosting》_第3张图片
从图中我们可以看出来,算法是将多个基本弱的分类器结合在一起,每个分类器对应于一个权重参数(训练而来),而每个弱分类器对最终分类结果的作用也不同,是通过加权平均输出的,权值见上图中三角形里面的数值。那么这些弱分类器和其对应的权值是怎样训练出来的呢?

AdaBoost算法是Adaptive Boost的简称,Boosting通过将一系列弱学习器组合起来,通过集成这些弱学习器的学习能力,得到一个强学习器。具体到AdaBoost算法,AdaBoost在之前学习器的基础上改变样本的权重,增加那些之前被分类错误的样本的比重,降低分类正确样本的比重,这样之后的学习器将重点关注那些被分类错误的样本。最后通过将这些学习器通过加权组合成一个强学习器,具体的,分类正确率高的学习器权重较高,分类正确率低的学习器权重较低。

开始时,所有样本的权重相同,训练得到第一个基分类器。从第二轮开始,每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重,上一轮分错的样本权重提高,分对的样本权重降低。之后根据新得到样本的权重指导本轮中的基分类器训练,即在考虑样本不同权重的情况下得到本轮错误率最低的基分类器。重复以上步骤直至训练到约定的轮数结束,每一轮训练得到一个基分类器。
ML《集成学习(二)Boosting之Adaboosting》_第4张图片
ML《集成学习(二)Boosting之Adaboosting》_第5张图片
ML《集成学习(二)Boosting之Adaboosting》_第6张图片
好了,Adaboosting算法先暂时学习这里咯。

你可能感兴趣的:(机器学习,集成学习,Boosting,Adaboosting)