机器学习:3、Adaboost

一 、Boosting 算法的起源


       boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的具体的学习算法。这套理论是由Valiant提出来的,也因此(还有其他贡献哈)他获得了2010年的图灵奖。


PAC 定义了学习算法的强弱

弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)

强学习算法---识别准确率很高并能在多项式时间内完成的学习算法


       同时 ,Valiant和 Kearns首次提出了 PAC学习模型中弱学习算法和强学习算法的等价性问题,即任意给定仅比随机猜测略好的弱学习算法 ,是否可以将其提升为强学习算法 ? 如果二者等价 ,那么只需找到一个比随机猜测略好的弱学习算法就可以将其提升为强学习算法 ,而不必寻找很难获得的强学习算法。 也就是这种猜测,让无数牛人去设计算法来验证PAC理论的正确性。


       不过很长一段时间都没有一个切实可行的办法来实现这个理想。细节决定成败,再好的理论也需要有效的算法来执行。终于功夫不负有心人,Schapire在1996年提出一个有效的算法真正实现了这个夙愿,它的名字叫AdaBoost。AdaBoost把多个不同的决策树用一种非随机的方式组合起来,表现出惊人的性能!第一,把决策树的准确率大大提高,可以与SVM媲美。第二,速度快,且基本不用调参数。第三,几乎不Overfitting。我估计当时Breiman和Friedman肯定高兴坏了,因为眼看着他们提出的CART正在被SVM比下去的时候,AdaBoost让决策树起死回生!Breiman情不自禁地在他的论文里赞扬AdaBoost是最好的现货方法(off-the-shelf,即“拿下了就可以用”的意思)。



二、Adaboost算法


        Adaboost是一种原理简单,但很实用的有监督机器学习算法,它是adaptive boosting的简称。说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来来进行分类的方法,统称为集成方法(ensemble method),虽然每个弱分类器分类的不那么准确,但是如果把多个弱分类器组合起来可以得到相当不错的结果。另外要说的是集成方法还可以组合不同的分类器,而Adaboost和boosting算法的每个弱分类器的类型都一样的。他们两个不同的地方是:boosting的每个弱分类器组合起来的权重不一样,本节的Adaboost就是一个例子,而bagging的每个弱分类器的组合权重是相等,代表的例子就是random forest。Random forest的每个弱分类器是决策树,输出的类别有多个决策树分类的类别的众数决定。在boosting中,不同的分类器是通过串行训练而获得的,每个新的分类器根据已经训练出来的分类器的性能来进行训练。boosting通过集中关注已有分类器错分的那些数据来获得新的分类器。

        简而言之:AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是通过改变数据分布实现的,它根据每次训练集中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。图示如下:

        
        左边矩形表示数据集,中间表示根据特征阈值来做分类,这样每一个弱分类器都类似于一个单节点的决策树,其实就是阈值判断而已,右边的三角形对每个弱分类器赋予一个权重,最后根据每个弱分类器的加权组合来判断总体类别。要注意一下数据集从上到下三个矩形内的直方图不一样,这表示每个样本的权重也发生了变化,样本权重的一开始初始化成相等的权重,然后根据弱分类器的错误率来调整每个弱分类器的全总alpha,如中的三角形所示。分类错误率

     alpha 的计算公式:
        
     计算出alpha之后,可以对权重向量D进行更新,以使得那些正确分类的样本的权重降低而错误样本的权重升高。D的计算如下:
     如果某个样本被正确分类,那么该样本的权重更改为:

     如果某个样本被错误分类,那么该样本的权重更改为:

     在计算出D之后,Adaboost又开始下一轮迭代。Adaboost会不断重读训练和调整权重,知道训练错误率为0或者弱分类器的个数达到用户的指定值为止。

      完整的adaboost算法如下:

机器学习:3、Adaboost_第1张图片
           
         简单来说,Adaboost有很多优点:

1) adaboost是一种有很高精度的分类器

2) 可以使用各种方法构建子分类器,adaboost算法提供的是框架

3) 当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单

4) 简单,不用做特征筛选

5) 不用担心overfitting!

        由于adaboost算法是一种实现简单,应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器,同时随着分类器的不断增加,训练误差的上界会不断下降不会过拟合等的性质,应该说是一种很适合于在各种分类场景下应用的算法。





     




你可能感兴趣的:(机器学习,adaboost,boosting)