机器学习10:集成学习

作者:非妃是公主
专栏:《机器学习》
个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩
在这里插入图片描述

专栏地址

《机器学习》专栏地址

专栏系列文章

机器学习01:绪论

机器学习02:模型评估

机器学习03:线性回归与多分类学习

机器学习04:支持向量机

机器学习05:神经网络学习

机器学习06:决策树学习

机器学习07:贝叶斯学习

机器学习08:最近邻学习

机器学习09:无监督学习

机器学习10:集成学习

机器学习11:代价敏感学习

机器学习12:演化学习

文章目录

  • 专栏地址
  • 专栏系列文章
  • 集成学习基础知识
  • 集成学习常用方法
    • 训练样本扰动
    • 输入属性扰动
    • 输出标记扰动
    • 算法参数扰动
    • 混合扰动
  • 集成学习结合策略
  • 偏差与方差

集成学习基础知识

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。
有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning) 等。
集成学习先产生一组“个体学习器” (individual learner) ,再用某种策略将它们结合起来。
集成学习分同质集成和异质集成。同质集成中的个体学习器由相同的学习算法生成,个体学习器称为基学习器;异质集成中的个体学习器由不同的学习算法生成,个体学习器称为组件学习器。
集成学习要显著优于单一个体学习器必须满足两个必要条件:
1)个体学习器之间应该是相互独立的;
2)个体学习器应当好于随机猜测学习器。
满足第2个条件往往比较容易,因为在现实任务中,出于种种考虑,比如希望使用较少的个体学习器,或者是希望重用关于常见学习器的一些经验等,人们往往会使用比较强的个体学习器。
满足第1个条件往往比较困难,个体学习器是为解决同一个问题训练出来的,显然不可能互相独立!事实上,个体学习器的“准确性”和“多样性”本身就存在冲突。一般的,准确性很高之后,要增加多样性就需要牺牲准确性。
因此,如何产生“好而不同”的个体学习器是集成学习研究的核心!

集成学习常用方法

那么,如何在保持个体学习器足够“好”的前提下增强多样性呢?一般的思路是在学习过程中引入随机性,常用方法主要包括:

训练样本扰动

机器学习10:集成学习_第1张图片

输入属性扰动

机器学习10:集成学习_第2张图片

输出标记扰动

机器学习10:集成学习_第3张图片

算法参数扰动

机器学习10:集成学习_第4张图片

混合扰动

机器学习10:集成学习_第5张图片

集成学习结合策略

机器学习10:集成学习_第6张图片
机器学习10:集成学习_第7张图片

偏差与方差

机器学习10:集成学习_第8张图片
偏差:学习算法的误差率
方差:在改变数据集后,学习算法误差率的方差
机器学习10:集成学习_第9张图片
随着模型复杂度的提高,我们可以发现以下特点:
在模型复杂度较低的情况下,偏差是很大的;
而在模型复杂度较高的情况下,方差是很大的;
我们想通过集成学习来实现方差+偏差的最小,即途中虚线的位置。

个人理解:误差较大、方差较小,模型复杂度低,其实就是出现了过拟合;
误差较小、方差较大,模型复杂度高,其实就是出现了欠拟合。
我们要找的就是过拟合和欠拟合之间的某个平衡点。

你可能感兴趣的:(机器学习,集成学习,人工智能)