机器学习 之 集成学习

一、概念

集成学习(ensemble learning) 通过构建并结合多的学习器(个体学习器)来完成学习任务。

依据学习器种类是否相同,可分为:同质集成以及异质集成。

根据个体学习器的生成方式,集成学习可分为两大类:1.个体学习器之间存在强依赖关系,必须串行生成的序列化方法;2.体学习器之间不存在强依赖关系,可同时生成的并行化方法;

二、相关算法

1.强依赖关系的:

Boosting。该族算法先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T , 最终将这T 个基学习器进行加权结合.

该族代表算法有:AdaBoost   GBDT  xgboost

1.弱依赖关系的:

Bagging。基于自助来样法(bootstrap sampling).即给定包含m 个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,我们得到含m 个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现.照这样,我们可采样出T 个含m 个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合.这就是Bagging 的基本流程.在对预测输出进行结合时, Bagging 通常对分类任务使用简单投票法。对回归任务使用简单平均法.若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个,也可进一步考察学习器投票的置信度来确定最终胜者.

随机森林(Random Forest ,简称RF)   .盯在以决策树为基学习器构建Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择.具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d 个属性)中选择一个最优属性;而在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分.

 

三、结合策略

平均法: 对数值型输出, 最常见的结合策略是使用平均法(averaging)。  分为 简单平均法 和 加权平均法

投票法:对分类任务来说,最常见的结合策略是使用投票法(voting).   分为 绝对多数投票法、 相对多数投票法 和 加权投票法

学习法:当训练数据很多时,一般使用强大的结合策略"学习法",即通过另一个学习器来进行结合。

 

资料来源:周志华《机器学习》 

 

你可能感兴趣的:(机器学习)