类别不平衡学习(理论与算法)————第一章

  • 参考书目:于化龙.类别不平衡学习:理论与算法[M].清华大学出版社,2017.

1.1 引言

  • 大数据是一把双刃剑,它在为信息产业快速发展带来机遇的同时,也向现有的信息技术提出了强有力的挑战。

  • 两项关键技术:机器学习与数据挖掘

  • 机器学习主要为数据挖掘任务提供模型与工具,故其更加偏重于理论;而数据挖掘则更多地关注于不同数据类型的特点及不同领域和层面用户的实际需求,并根据这些需求向机器学习寻求理论帮助,换言之,数据挖掘更加注重实际应用。

  • 传统的分类技术通常存在一个致命缺陷,即当其在样本分布不均衡的数据上训练时(如采用99个健康人和1个病人的体检指标创建疾病诊断模型,99990个正常数据包和10个病毒数据包构建网络入侵检测模型等),往往会出现分类面偏倚的现象,从而无法得到理想的分类效果,在严重情况下,模型甚至会完全失效。上述问题在机器学习与数据挖掘领域通常被称为“类别不平衡”(class imbalance)问题,人们也习惯地将用于解决上述问题的算法统称为类别不平衡学习算法。

1.2 基本概念

  • 类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。

  • 在类别不平衡问题中,人们习惯将包含样本数较多的类别称为负类(negative class),而将样本数较少的类别称为正类(positive class)。此外,另一个较重要的概念为不平衡比率(imbalanced ratio, IR),它的值为负类样本数与正类样本数之比。通常,IR值越大,其对传统分类器性能的危害也会越大。

  • 根据不同的划分标准,类别不平衡问题也可被分为多个不同的类别,具体分类标准如下:(1)以类别数作为划分标准,可将类别不平衡问题划分为一类不平衡问题、二类不平衡问题及多类不平衡问题。其中,二类不平衡问题在实际应用中最为常见,目前研究得也最为充分;多类不平衡问题相对最为复杂,目前仍是该领域的研究热点与难点;而一类不平衡问题则独树一帜,目前已有多种有效的解决方案。(2)以IR值作为划分标准,可将类别不平衡问题划分为轻度不平衡问题和极度不平衡问题。其中,前者的IR值较小,对传统分类器性能的影响强度也不大,而后者则会对传统分类算法构成较大威胁,极端情况下会令其完全失效。(3)以作用范围作为划分标准,可将类别不平衡问题划分为类内不平衡问题与类间不平衡问题。其中,前者又被称作类内子聚集或小析取项问题,其主要是由同类样本在特征空间分布不均所致,而后者则被视为传统意义上的类别不平衡问题。上述二者既有区别,又相互关联,当二者共同出现时,将为学习任务制造更多的困难。

  • 注意类别不平衡学习与代价敏感学习是两个完全不同的概念。

1.3 常用技术

  • 1.样本采样技术
    样本采样,也称数据层处理方法,顾名思义,即通过增加少数类样本或减少多数类样本的方式来获得相对平衡的训练集,以解决类别不平衡问题。增加少数类样本的方法被称为过采样(oversampling),而减少多数类样本的方法则被称为降采样或欠采样(undersampling)。随机过采样(random over-sampling, ROS)与随机降采样(random undersampling, RUS)是最简单也是最为常用的样本采样技术。但二者均有其各自的缺点,其中,前者会增加分类器训练的时空开销,并易于产生分类器过适应的现象,而后者则会造成分类信息严重缺失,从而导致分类性能显著下降。为克服随机采样的缺点,Chawla等人于2002年提出了一种新的过采样方法:少数类合成过采样技术(synthetic minority oversampling technique, SMOTE)。不同于随机过采样方法,SMOTE通过在两个邻近的少数类样本间插入虚拟样本,有效解决了ROS方法易于陷入过适应的问题。Han等人则发现大多数被错分的样本通常都分布在两类的分界线附近,故其对SMOTE算法进行了改进,分别提出了BSO1和BSO2两种算法。BSO1算法只在那些靠近边界线的少数类样本上执行SMOTE算法,而BSO2算法则在靠近边界线的少数类与多数类样本上共同执行SMOTE算法。另一种改进方法称为单边选择(one side selection, OSS),其与BSO2算法的思想十分相似,它通过清除多数类中的噪声样本、冗余样本和边界样本的方式使其决策区域得到有效收缩。另一个较为著名的采样方法是ADA-SYN算法,其可根据样本的分布密度对生成伪样本的数量进行自动决策。Yen和Lee所提出的SBC方法则借鉴了聚类的思想,其可自动决定在每一类簇中移除多少个多数类样本。
    可以说,样本采样是一种行之有效的类别不平衡学习技术。该技术的最大优点在于:采样过程与分类器的训练过程是相互独立的,故其更具通用性。

  • 2.代价敏感学习技术
    代价敏感学习也是用于解决类别不平衡问题的常用技术之一。与样本采样技术直接通过增删样本来改变样本分布的做法不同,代价敏感学习技术改变了分类器的训练原则,不再追求训练误差最小化,转而以整体误分代价最小化为训练目标,即在训练时,为少数类样本的训练误差施以较大的惩罚,而为多数类的训练误差施以相对小的惩罚。至于具体的惩罚系数,需要以代价矩阵的形式给出。
    代价敏感学习的实质是将代价矩阵与传统的分类器模型相融合,以达到修正分类面的目的,故其是一种分类器层的学习方法。在代价敏感学习家族中,融合的方式多种多样,如朴素贝叶斯分类器通过原始后验概率与代价系数的乘积来计算修正的后验概率,从而改变决策的分布,决策树算法则通常将代价的概念考虑进了其训练的全过程,包括属性的选择与剪枝,支持向量机与极限学习机则直接对其惩罚因子进行代价加权,使训练的分类器可直接适应样本的不平衡分布。
    与样本采样技术相比,代价敏感学习技术尽管在构造机理上可能更加复杂,但该技术要更为灵活,且在很多特定分类任务上,其性能往往更优。

  • 3.决策输出补偿技术

  • 4.集成学习技术

  • 5.主动学习技术

  • 6.一类分类技术

1.4 应用领域

  • 1.网站入侵检测
  • 2.信用卡欺诈检测
  • 3.异常行为检测
  • 4.垃圾邮件过滤
  • 5.文本分类
  • 6.医学诊断
  • 7.生物信息学

1.5 本书主要内容及安排

1.6 文献导读

  • 有关类别不平衡学习理论与算法方面的论文通常发表于人工智能、机器学习与数据挖掘等领域的期刊及会议上,如IJCAI、AAAI、ICML、KDD、ICDM、SDM、PKDD、PAKDD、IJCNN、IEEE TSMC:Part B、IEEE TNNLS、IEEE TKDE、IEEE TPAMI、IEEE TFS、Pattern Recognition、Information Science、Knowledge-Based Systems、Neural Processing Letters、Neurocomputing等。而关于类别不平衡学习应用方面的文章,也可能发表在一些交叉领域的期刊上。读者可根据关键词查询技术来搜索并下载该领域最新的文献,跟踪其发展动态。

你可能感兴趣的:(机器学习,类别不平衡,机器学习,ML)