集成学习算法
概念
构建多个分类器来提高综合效能
尽管每个分类器的性能可能都比较低下,但此算法通俗来讲就是“三个臭皮匠赛过诸葛亮”。类似于“集群”方法,以数量促成质变。最终,将这些分类器进行汇总取得最终的概括算法模型
前提:
基分类器之间相互独立(基分类器的数据来源之间不存在强相关就行,相关性越弱性能改善越好)且错误率要低于0.5
运行的算法都一样为同质集成,不一样就是异质集成(Bagging、Boosting以及随机森林)
bagging和boosting都可以在线性、神经网络、C5.0、C&R树、Quest、CHAID节点中都可以找到
Bagging:
提高模型的稳定性
Boosting:
提高模型的准确性
随机森林:(随机树节点)
极高的准确率和稳定性,不易过拟合
能够有效的运行在大数据集上等等
缺点
当随机森林中的决策树个数很多时,训练需要的空间和时间会较大
随机森林模型有许多不好解释的地方,算个黑盒模型
参考:理解随机森林(RandomForest)、Bagging和Boosting的概念_fly_Xiaoma的博客-CSDN博客_随机森林是boosting吗
步骤:
接类型节点和缺失值处理节点以及分区节点之后,对其进行算法处理
然后分别用上述三个算法+使用默认算法(总计四个模型)进行计算,注意需要标注好注释
构建选项--目标---可以选择算法boosting和bagging
整体--整体就是集成算法的最终结果
参考模型对于bagging而言,是训练集上的准确度。对于boosting就是第一个分类器的结果
naive模型
多样性用于度量每个分类器之间的差异性
整体模型的结果是最重要的
预测变量频率就是变量出现在各个模型中的频率
随机森林
之前要记得接分区节点,之后接随机树节点
要构建的模型数量,就是可以指定基本分类器的数量
样本的大小,指定自助样本级的大小,没认为一点灵及自助样本大小等于原始样本大小
处理不平衡数据,当数据集中目标类别的比例极度不平衡时,将会对模型的精确度造成影响。选择此选项算法将提高样本中具有最小比例类别的抽样权重,从而保证再自助训练集中样本比例趋向于平衡(就是数据平衡)
将加权采样用于变量选择
默认情况下,每个叶节点对划分变量子集的抽样都是等概率随机抽取的选择,此项加权用于变量选择
选择最大节点数
指定允许每个基分类器中存在的最大叶节点数量,如果下次分裂时超过此值,则在分裂前就停止生长。
最大树深度就是最多能分裂几层
最小节点大小指定父节点分裂后子节点应包含的最小记录数,如果拆分后决定的记录数小于此值,则取消此次分裂
当不在提高准确性是停止构建
就是字面意思
指定用于分割的预测变量数,就是指定变量子集中所包含的变量个数
缺失值的最大百分比,如果某变量中的缺失值大于指定阀值,将排除该子段。排除单个类别大多数超过以下的子段,如果某变量中某个类别的比例超过指定阀值,将会排除该字段。字段类别的最大数量,如果某变量中的类别数量超过指定阀值,将排除该字段。最小字段变异,如果某连续变量的变异系数小于指定阀值,将排除该字段。
分级数也可以对连续变量进行分箱处理
混淆矩阵报告实际观测和模型预测的结果,另外混淆矩阵不是用于回归任务以及处理平衡数据分类任务。
各集成学习算法的结果比较
准确率和召回率需要重点关注
异质集成--整体节点
当我们用不同的算法构建了多个分类器的时候,可以在最后用“整体”节点完成对这些异质分类器的集成输出。之后再加一个“分析”节点就可以了
集成方法--整体节点的使用
过滤出整体模型生成字段:只生成最终组合好的结果
整体方法:
连续性目标:将各个基分类器的输出结果变成平均值后输出
分类性目标:名义型和标识型
适用于投票(三个分类器,两个同类别的都是50,则最终结果就是(50%+50%)/3)、置信度加权投票(本类别所有可能性加起来除以数量,比如一共5各分类器,三个同类别的加起来为190%,则最终结果是190%/5)、最高置信度当选(选可能性最高的模型)
标志性目标:使用倾向度(结果的可能性)+置信度(结果可能性的可信度)评分
会在训练集中做训练,这个叫原始性倾向。在验证集和测试集中得到的是调整的倾向(C5.0节点中使用)