集成学习以及分类样本不均衡问题

集成学习简介参考如下:
集成学习简介

1 如何提高集成学习方法的泛化性能

集成学习是由多个基学习器通过一定方式形成,多个基学习器可以同类型也可以不同类型,当基学习器具有较大差异性时,形成互补,做到“好而不同”可以提高集成学习的泛化性能。如何增强集成学习的差异性(多样性)?答案是,引入随机性。常见做法如下所示:
1)加入数据样本扰动:例如bagging算法的输入样本重采样(有放回的采样出与原始样本容量相同的新样本),对输入样本扰动敏感的不稳定学习器例如决策树、神经网路等适合此种方式,但是要注意,有的基学习器对该扰动不敏感,例如,线性回归、支持向量机、朴素贝叶斯、K近邻该类学习器称为稳定学习器。
2)输入属性扰动:最经典的例子是随机森林,传统的决策树是从某个特征所有的属性值中选出最优的切分点进行数据样本划分,但是随机森林是,随机选取某个特征部分属性值作为属性子集,并从该子集中选出最优的切分点;此外较为注著名的是随机子空间算法,依赖于输入属性扰动。
3)输出表示扰动:(1)翻转法:改变一些训练样本的标签;(2)输出调制法:分类输出转化成回归输出;(3)将原任务拆分为多个子任务同时执行,例如利用纠错码将多分类任务拆解为一系列二分类任务来训练基学习器。
4)算法参数扰动:例如改变神经网络的隐层节点数,初始权重,学习率等。

2 分类不均衡问题解决方案

在这里,分类不均衡问题是指:分类任务中不同类别的训练样例数目差别很大的情况。同时,注意区分 非均等类别代价问题,即将正例误分为反例的代价与将反例误分为正例的代价不同。

2.1 针对分类不均衡问题主要技术
1) 对样例数目较的类别进行抽样(undersampling)

代表性算法EasyEnsemble,利用集成学习机制,将该类别划分为若干个集合共不同学习器使用,对于每个学习器来说都是欠采样,但从全局来看却不会丢失重要信息。

2) 对样例数目较的类别进行抽样(oversampling)

过抽样不是简单的对样本进行重复抽样,否则会招致严重过拟合,过采样的代表算法是SMOTE,是通过对训练集中的样例进行插值来产生额外的样例。

3)再缩放(再平衡)技术

该技术也可解决非均等类别代价问题,即给较少类给多的权重,较多类更少的权重,缩放因子可以为,类别样例数目的比值或者误判代价的比值。

3 参考文献
机器学习第三章———-周东华
机器学习实践第七章—–李锐、李鹏译

你可能感兴趣的:(机器学习)