4、ensemble组合方法

ensemble组合方法

1、ensemble概念

通过聚合多个分类器的预测来提高分类的准确率,这种技术称为组合方法(ensemble method) 。组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行权重控制来进行分类。

Ensemble技术在数据挖掘的三个方向:

1.在样本上做文章,基分类器为同一个分类算法,主要的技术有bagging,boosting;

2.在分类算法上做工作,即用于训练基分类器的样本相同,基分类器的算法不同,

3.在样本属性集上做文章,即在不同的属性空间上构建基分类器,比较出名的是randomforestTree算法,这个在weka中也有实现。

 

Ensemble Methods大致包括三种框架——Bagging,Boosting,Stacking。

对于Bagging来说,添加随机变量的学习器反而能够提高整体的效果。这三种方法中,Boosting是表现最好的模型,它与有着广泛研究基础的加性模型(addictive models)的统计技术有着相近的关系。

2、强可学习算法、弱可学习算法:

在概率近似正确(probably approximately correct,PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的。一个概念,如果存在一个多项式的学习算法能够学习它,学习正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。Schapire指出在PAC学习框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。那么对于一个学习问题,若是找到“弱学习算法”,那么可以将弱学习方法变成“强学习算法”。

提升学习方法有两个问题:

1. 每一轮如何改变训练数据的权重或概率分布

2. 如何将弱分类器整合为强分类器。

①提高被前一轮弱分类器错误分类的权值,而降低那些被正确分类样本权值,这样导致结果就是那些没有得到正确分类的数据,由于权值加重受到后一轮弱分类器的更大关注。

②adaboost采取加权多数表决方法,加大分类误差率小的弱分类器的权值,使其在表决中起到较大的作用,相反减小误差率的弱分类的权值,使其在表决中较小的作用。

 

具体说来,整个Adaboost 迭代算法就3步:

1)初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权重:1/N。

2)训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。然后,权重更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。

3)将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

3、集成学习的几种方法:

在验证数据集上找到表现最好的模型作为最终的预测模型;

对多个模型的预测结果进行投票或者取平均值;

对多个模型的预测结果做加权平均。

以上的几种思路就对应了集成学习中的几种主要的学习框架。

1)、多个模型投票或者取平均值

对于数据集训练多个模型,对于分类问题,可以采用投票的方法,选择票数最多的类别作为最终的类别,而对于回归问题,可以采用取均值的方法,取得的均值作为最终的结果。在这样的思路里最著名的是Bagging方法.Bagging即BoostrapAggregating,其中,Boostrap是一种有放回的抽样方法,其抽样策略是简单的随机抽样。

 

在Bagging方法中,让学习算法训练多次,每次的训练集由初始的训练集中随机取出的训练样本组成,初始的训练样本在某次的训练集中可能出现多次或者根本不出现。最终训练出个预测函数,最终的预测函数为对于分类和回归问题可采用如下的两种方法:

分类问题:采用投票的方法,得票最多的类别为最终的类别

回归问题:采用简单的平均方法

随机森林算法就是基于Bagging思想的学习算法。

 

2)、对多个模型的预测结果做加权平均

在上述的Bagging方法中,其特点在于随机化抽样,通过反复的抽样训练新的模型,最终在这些模型的基础上取平均。而在对多个模型的预测结果做加权平均则是将多个弱学习模型提升为强学习模型,这就是Boosting的核心思想。

 

Boosting算法中,初始化时对每个训练样本赋予相等的权重,如frac{1}{n},然后用该学习算法对训练集训练G轮,每次训练后,对训练失败的训练样本赋予更大的权重,也就是让学习算法在后续的学习中几种对比较难学的训练样本进行学习,从而得到一个预测函数序列left { h_1,cdots ,h_G right},其中每个h_i都有一个权重,预测效果好的预测函数的权重较大。最终的预测函数为H对于分类和回归问题可采用如下的两种方法:

分类问题:有权重的投票方式

回归问题:加权平均 

4、组合分类器性能优于单个分类器必须满足两个条件:

(1)基分类器之间是相互独立的

(2)基分类器应当好于随机猜测分类器。

实践上很难保证基分类器之间完全独立,但是在基分类器轻微相关情况下,组合方法可以提高分类的准确率。

你可能感兴趣的:(机器学习,组合方法)