集成学习

一、几个重要结论:

1.基学习器的误差相互独立的情况下,随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,最终趋向于零。
2.集成学习目前分为串行序列化方法和并行化方法。
3.结合策略分为平均法(简单平均法、加权平均法)、投票法(绝对多数投票法、相对多数投票法、加权投票法)、学习法(以Stacking为代表)。通常来讲,对规模较大的集成来说,要学习的权重比较多,较容易导致过拟合,在个体学习器性能相差较大时宜使用加权方法,而在个体学习器性能相近时宜采用简单方法。
Stacking算法:集成学习_第1张图片
有研究表明,将初始学习器的输出类概率作为次级学习器的输入属性,用** 多响应线性回归**(MLR) 作为次级学习算法效果较好。

4.类标记,又称硬标签,取值为0或1;类概率,又称软标记,取值为对后验概率的一个估计。
5.由误差——分歧分解可知,个体学习器准确性越高、多样性越大,则集成越好,推导如下:
集成学习_第2张图片
集成学习_第3张图片
6.多样性增强方法:数据样本扰动、输入属性扰动(随机子空间算法:从初始属性集中抽取出若干个属性子集,再基于每个属性子集训练一个基学习器)、输出表示扰动、算法参数扰动

二、串行序列化方法——Boosting

集成学习_第4张图片
集成学习_第5张图片
算法证明详见《机器学习(周志华)》

三、并行序列化方法——Bagging、Random Forest

1.基本思想:采用自举重采样的方法采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。随机森林是Bagging的一个特例,具体介绍见“决策树”博文。与标准的AdaBoost算法只适用于二分类任务不同(不过现在已经有变体可以用于多分类和回归任务),Bagging能不经修改地用于多分类和回归任务。
2.从偏差——方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。
3.随机森林的训练效率常优于Bagging,因为在个体决策树构建过程中,Bagging使用的是“确定型”决策树,而随机森林使用的是“随机型”决策树。

你可能感兴趣的:(数据挖掘与机器学习)