5. 集成学习引入

集成学习引入

文章目录

    • 一、概念
    • 二、集成学习策略
    • 三、Bagging
    • 四、Boosting

一、概念

  面对一个机器学习问题,通常有两种策略。一种是研发人员尝试各种模型,选择其中表现最好的模型做重点调参优化。这种策略类似于比赛,通过强强竞争来选拔最优的运动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同君主广泛的听取众多谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中每个单独的分类器称为基分类器。

训练数据集
弱学习器1
强学习器
弱学习器2
...
弱学习器n

二、集成学习策略

  集成学习得到多个学习器后,结合策略得到最终的结果。通常用到最多的是平均法,投票法和学习法。

  • 投票法:对于分类问题的预测。
  • 平均法:对于数值类的回归预测。
  • 学习法:为了解决投票法和平均法误差较大的问题。

  投票法通常用于分类问题。这种技术中使用多个模型来预测每个数据点。每个模型的预测都被视为一次“投票”。大多数模型得到的预测被用作最终预测结果。即对 K K K 个学习器的分类结果做一个统计,出现次数最多的类作为预测类。

  例如:当你让 5 5 5 位同事评价你的电影时(最高5分); 我们假设其中三位将它评为4,而另外两位给它一个5。由于多数人评分为4,所以最终评分为4。你可以将此视为采用了所有预测的众数 ( m o d e ) (mode) (mode)

  平均法类似于最大投票技术,这里对每个数据点的多次预测进行算数平均。在这种方法中,我们从所有模型中取平均值作为最终预测。平均法可用于在回归问题中进行预测或在 计算分类问题的概率时使用。

  例如,在此案例的情况中,平均法将取所有值的平均值。即 ( 5 + 4 + 5 + 4 + 4 ) / 5 = 4.4 (5 + 4 + 5 + 4 + 4)/ 5 = 4.4 (5+4+5+4+4)/5=4.4

  平均法和投票法是对弱学习器的结果做平均或者投票,相对比较简单,但是可能学习误差较大,于是就有了学习法。

  对于学习法,代表方法是 s t a c k i n g stacking stacking ,当使用 s t a c k i n g stacking stacking 的结合策略时, 我们不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,也就是说,我们将训练集弱学习器的学习结果作为输入,重新训练一个学习器来得到最终结果。

  在这种情况下,我们将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。对于测试集,我们首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。

三、Bagging

   B a g g i n g Bagging Bagging 方法在训练过程中, 各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林 ( R a n d o m F o r e s t ) (RandomForest) (RandomForest),为了让基分类器之间互相独立,将训练集分成若干子集(当训练样本数量较少时,子集之间可能有交叠)。 B a g g i n g Bagging Bagging 方法是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。由于个体之间的差异性,最终做出的判断不会完全一致。在最终决策时,每个个体单独做出判断,再通过投票的方式做出最后的集体决策。

M个训练样本
第一个样本采集
弱学习器1
强学习器
第二个样本采集
弱学习器2
随机采样...
弱学习器3
第N个样本采集
弱学习器4

   B a g g i n g Bagging Bagging 通过降低基学习器的方差改善了泛化误差: b a g g i n g bagging bagging 对样本进行有放回的重采样,学习结果是各个学习模型的平均值。由于重采样的样本集具有相似性以及使用相同的学习器模型。因此,各学习模型的结果相近,即模型有近似相等的偏差和方差。

  假设 X i X_i Xi i i i 组训练样本集,各组训练样本集是相互独立的,不同的训练样本集代表不同的模型,由概率论可知:
E [ ∑ X i n ] = E [ X i ] V a r [ ∑ X i n ] = 1 n 2 V a r [ X i ] E[\frac{\sum X_i}{n}] = E[X_i] \\ Var[\frac{\sum X_i}{n}] = \frac{1}{n^2}Var[X_i] E[nXi]=E[Xi]Var[nXi]=n21Var[Xi]
  我们可以看到,均值没变,但是方差却减小到只有原方差的 1 n 2 \frac1n^2 n12

  另外由于每一个样本被选中的概率相同,因此 b a g g i n g bagging bagging 并不侧重于训练数据集中的任何特定实例。因此对于噪声数据,装袋不太受过分拟合的影响

  关于 b a g g i n g bagging bagging 的一个有必要提及的问题: b a g g i n g bagging bagging 的代价是不用单棵决策树来做预测,具体哪个变量起到重要作用变得未知,所以 b a g g i n g bagging bagging 改进了预测准确率但损失了解释性

四、Boosting

   B o o s t i n g Boosting Boosting 的主要作用跟 b a g g i n g bagging bagging 类似也是一种把若干个基分类器整合为一个分类器的方法。它训练基分类器时采用串行的方式,每个基分类器之间有依赖。

  它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。

  • 第一步:从原始的数据集中创建一个子集。
  • 第二步:最初,所有的数据点都具有相同的权重。
  • 第三步:在此子集上创建基础模型。
  • 第四步:该模型用于对整个数据集进行预测。
  • 第五步:使用实际值和预测值计算误差。
  • 第六步:预测错误的点获得更高的权重。
  • 第七步:创建另一个模型并对数据集进行预测(此模型尝试更正先前模型中的错误。
  • 第八步:类似地,创建多个模型,每个模型校正先前模型的错误。
  • 第九步:最终模型 (强学习器)是所有模型 (弱学习器) 的加权平均值。

  因此 B o o s t i n g Boosting Boosting 结合了很多弱学习器来形成一个强学习器,单个模型表现不佳,但它们在数据集的某些部分表现很好。因此,每个模型实际上提升了集成的整体性能。

你可能感兴趣的:(有监督学习,数据挖掘,集成学习,机器学习,人工智能)