不平衡数据集下的SVM算法研究

概论

  • 传统的样本一般是从精心设计的实验装置中筛选出来的,这些样本往往满足一定条件。
  • 而我们获得的网络样本、金融样本以及生物样本中,这些观测样本往往具有涌现性,且与传统意义的样本并不相同,大量的样本中往往有用的样本点却很少。这种某类样本的数量明显少于其他类样本数量的样本集称为不均衡样本集

问题的本质

  • 从技术角度上说,任何在不同类之间展现出不等分布的样本集都应该被认为是不均衡的,并且应该展现出明显的不平衡特征。具体来说,这种不均衡形式被称为类间不均衡,常见的多数类与少数类比例是100:1,1000:1,10000:1
  • 有时对少数类错分情况的后果很严重,比如癌症患者被误诊为健康人。所以需要的分类器应该是在不严重损失多数类精度的情况下,在少数类上获得尽可能高的精度
  • 同时也暗示着使用单一的评价准则,例如全局精度或是误差率,是不能给不均衡问题提供足够的评价信息。因此利用含有更多信息的评价指标,例如接收机特性曲线、精度-recall曲线和代价曲线
  • 样本不均衡的程度不是阻碍分类学习的唯一因素,样本集的复杂度也是导致分类性能恶化的重要因素,另外相对不平衡比例的增大也可能使分类性能进一步恶化 。其中样本集复杂度是广义的术语,它包括重叠、缺少代表性样本、类别间分离程度小

    不平衡数据集下的SVM算法研究_第1张图片 不平衡数据集下的SVM算法研究_第2张图片

  • 一个简单的例子,考虑到上图中,三角和空心圆分别代表少数类和多数类,通过检测,我们发现(a),(b)中的分布都是相对不均衡的,但是(a)中类间没有重叠的样本,且每一类只有一个聚类。而在(b)中既有多个聚类还有重叠的样本,其中的子集(聚类)C也许不会被分类器学习,这是因为它缺乏具有代表性的样本

  • 由目标样本稀少导致的不均衡问题,所关注的目标类(少数类)很少,即类间的不均衡。此外,少数类样本集中也许还包含一个少数有限样本的子集(分离项),称之为类内的不均衡。小分离项存在导致分类性能大大地下降

符号定义

为了清晰的表述,首先定义一些用于描述不均衡样本分类的一些概念,考虑一个给定的含有 m 个样本的训练样本集 s 即 |s|=m ,我们定义:

  • s={(xi,yi)} ,i=1,…,m,其中 xiX 是n维特征空间 X={f1,f2,...,fn} 的样本,且 yiY={1,...,C} 是与样本 xi 相关的类别标签。特别的,C=2代表两类分类问题
  • 定义子集 SminS SmajS ,其中 Smin S ,且 Smaj 是集合S中多数类样本的集合,所以 SminSmaj={} SminSmaj={S}
  • 在集合 S 上抽样产生的任何集合都标记为 E,不相交的子集 Emin Emaj 分别表示 E 中的少数类样本和多数类样本

国内外不均衡学习研究现状

目前针对SVM在不均衡样本集中应用的研究主要包括两个层面的内容:

  1. 算法层面的处理方法
  2. 样本层面的处理方法,利用适当的方法重构训练样本,以提高分类性能
  3. 将算法和样本处理相结合使用,更能提高分类器的性能

算法层面的处理方法

  • 利用两个不同的正规化参数(C+和C-)来分别控制两类样本的错误惩罚。其主要是预防SVM的过学习预防SVM的过学习,这时分类错误基本上都归结于这些越界的支持向量,这样就能得到两类样本分类错误率近似相等的SVM分类器
  • 单类支持向量机算法(One-Class SVM)是对支持向量机算法的扩展,基本思想是利用估计目标类样本在特征空间的密度分布,对未知的样本做出“是”或者“非”的判断。根据单类样本提供的信息,找到类似的目标样本,而对非目标的其它样本作为一个整体考虑,这样就避免了复杂的样本采样以及需要对背景信息进行完整描述的问题。

样本层面的处理方法

  • 欠抽样,是通过减少多数类样本来均衡两类样本,但是可能会忽略潜在有用的多数类样本
  • 过抽样,则是通过复制少数类样本来实现均衡两类样本,但是由于其引入了额外的样本集,严重情况下可能会导致样本的过度拟合问题
  • SMOTE算法引入了新的非重复人造少数类样本,这种算法增加了通用性,而不像精确复制样本一样会导致过度拟合,SMOTE是一种过抽样方法,它与随机过抽样算法的最大不同在于,它能生成一些人工样本然后加入到新的训练样本集中
  • 基于过抽样/欠抽样/SMOTE的代价敏感 SVM 算法,但是当样本集出现严重不均衡时,该算法可能会失效
  • Boosting算法,它的目标是增加给定算法的分类准确率。在此基础上将SVM与AdaBoost算法相结合构成的新算法,称其为AdaBoost-SVM,该算法提升了SVM预测精度并且优化了算法学习的效率
  • s-AdaBoostRBFSVM 算法通过动态调整 RBF-SVM 核参数的方式来产生差异基分类器

评估指标

  1. 二类分类问题的评价指标是精确度(少数类查准率)与召回率(少数类样本正确率),通常以关注的类为正类(少数类),其他类为负类,以下4种情况出现的总数分别记作:

    • TP —— 将正类预测为正类数
    • FN—— 将正类预测为负类数
    • FP —— 将负类预测为正类数
    • TN—— 将负类预测为负类数
  2. 少数类精确率(少数类查准率)定义为: Precision=TPTP+FP
    少数类召回率(少数类样本正确率)定义为: Sensitivity=TPTP+FN
    多数类召回率定义为: Specificity=TNFP+TN

  3. 几何平均正确率 G-mean: G=SensitivitySpecificity
    性能指标G综合考虑了少数类和多数类两类样本的分类性能,G的值是随 Sensitivity 和 Specificity 的值在[0,1]区间里单调递增,由于分类器分类偏向于其中一类会影响另一类的分类正确率

  4. 此外还有 F 值,是精确率和召回率的调和均值,即 F-measure:
    F=2SensitivityPrecisionSensitivity+Precision
    精确率和召回率都很高时,F}值也会高, 性能指标F考虑了少数类样本的查全率和查准率,因此其中任何一个值都能影响F值的大小。所以它能综合体现出分类器对多数类和少数类的分类效果,但更侧重于体现少数类样本的分类效果

  5. AUC (Area Under the ROC Curve)则是另一个有效地不均衡样本分类性能评价手段,对于一个给定的两分类,ROC曲线是利用多个(FRP,TPR)对描述性能的方法,AUC是这个曲线形成的面积

你可能感兴趣的:(机器学习/统计学方法/算法,学习专辑)