集成学习(bagging与boosting)

集成学习(bagging与boosting)

  • 算法比较
  • 方差与偏差

将多个弱学习器进行结合,从而获得比单一学习器显著优越的泛化性能。
主要分为bagging和boosting两种集成方法。

算法比较

bagging:个体学习器之间不存在强依赖关系,可同时生成的并行化方法。
算法特征:

  • 样本选择:从训练集中进行有放回的均匀采样,各轮训练集之间是独立的。
  • 样例权重:使用均匀取样,每个样例的权重相等。
  • 预测函数:整体模型的期望近似于基模型的期望。
  • 计算模式:各个预测函数可以并行生成。

训练过程:

  • 自助采样法:给定包含m个样本的数据集,随机从训练集中取出一个样本放入采样集中,经过m次有放回的随机采样操作,得到含有m个样本的采样集,初始样本中有的样本在采样集中多次出现。
  • 通过自助采样法采集T个包含m个训练样本的采样集。
  • 基于每个采样集训练一个基学习器。
  • 再将这些学习器进行结合。通常对分类问题采用简单投票法,对回归问题采用简单平均法。

boosting:个体学习器之间存在强依赖关系,必须串行生成的序列化方法。
算法特征:

  • 样本选择:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
  • 样例权重:根据错误率不断调整样例的权值,错误率越大则权重越大。
  • 预测函数:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
  • 计算模式:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

训练过程:

  • 先从初始训练集训练出一个基学习器
  • 再根据基学习器的表现对训练样本分布进行调整
  • 使得先前基学习器做错的训练样本在后续受到更多关注
  • 然后基于调整后的样本分布来训练下一个基学习器
  • 如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。

方差与偏差

集成学习(bagging与boosting)_第1张图片

  • 偏差: 度量学习算法的期望预测与真实结果的偏离程度,也叫拟合能力。
  • 方差: 度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动造成的影响。
  • bagging更关注于减小方差。 因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。
  • boosting更关注于减小偏差。 因此boosting能基于泛化能力相当弱的学习器构建出很强的集成。

你可能感兴趣的:(机器学习算法,集成学习算法,ensemble,bagging,boosting)