数据挖掘算法----集成学习算法

简介

集成学习,通过将多个单个的学习器集成在一起,使它们共同完成学习任务,也被称为“多分类系统”。其思想是使用一些不同的方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。集成模型是一种能在各种机器学习任务上提高准确率的强有力技术,集成算法往往是很关键的一步,能够很好提升算法的性能。单个分类器的分类可能会出错,但是多个分类器进行投票就可以变的可靠。

主要问题

1、得到个体学习器

  • 所有的学习器是一个种类的,或者说是同质的;比如都是决策树个体学习器,或者都是神经网络个体学习器。应用最为广泛,其中应用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,一种是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法为boosting系列算法;第二种是个体学习器之间不存在强依赖关系,一系列个体学习器并行生成,代表算法是bagging和随机森林系列算法。
  • 所有的个体学习器不是同一个种类,或者说是异质的;比如对于一个分类问题,对训练集采用支持向量机个体学习器逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的强分类学习器。

2、将个体学习器通过某种策略结合成强学习器(假设得到T个弱学习器(h_{1},h_{2},h_{3}......,h_{t}))

  • 平均法:用于数值类的回归预测问题,即对若干个弱学习器的输出进行平均得到最终的预测输出;算术平均得最终预测为H\left ( x \right )=\frac{1}{T}\sum_{1}^{T}h_{i}\left ( x \right );若每个学习器都有一个权重w,则最终预测是H\left ( x \right )=\sum_{i=1}^{T}w_{i}h_{i}\left ( x \right ),其中w_{i}是个体分类器h_{i} 的权重。
  • 投票法:常用于分类预测问题。假设我们预测的类别为\left \{ C_{1} ,C_{2}.... C_{K} \right \},对于任意一个预测样本X,使用T个弱个体分类器得到的结果分别为\left ( h_{1}\left ( x \right ),h_{2}\left ( x \right ) ....h_{T}\left ( x \right )\right )。最简单的方式就是相对多数投票法,也就是少数服从多数,选择数量最多的类别为最终的分类类别,若不止一个类别获得最高票数,则随机选择一个作为最终类别;复杂的还有觉得多数投票法,也就是票数要过半,否则拒绝预测;最复杂的是加权投票法,此时每个分类票数需要乘一个权重,最终将各个类别的加权票数求和,最大值对应的类别即为最终的预测类别。
  • 学习法:此种方法中,将训练集弱学习器得到的结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终的结果。这种情况下,将弱学习器成为初级学习器,将用于结合的学习器称为次级学习器,对于测试集,首先使用初级学习器进行预测,再将得到的结果作为输入数据,使用次级学习器进行预测。

你可能感兴趣的:(数据挖掘)