[资源整理]经典的用于不平衡分类的采样方法以及相关的代码库/包

经典的用于不平衡分类的采样方法以及相关的代码库/包

  • 背景
  • 经典的Data level 方法
    • SMOTE (Synthetic Minority Over-sampling Technique)
    • SMOGN
    • SMOR (Synthetic Minority oversampling technique to deal exclusively with imbalanced Ordinal Regression
  • imblearn
  • 总结


背景

这里介绍用于Imbalanced classification的采样方法, 也就是所谓的Data-level methods. 这类方法实际上可以看做是数据的pre-processing, 其基本思路就是通过采样Sampling把训练集从imbalanced变为balanced, 然后采用经典的分类方法来训练模型.

当然,谈到采样,(1) 最简单的就是没有生成新样本的naive sampling, (2) 还有一种就是会合成Synthetic新的样本, 那么如何合成samples则是一个有挑战性的问题. 事实上,很多sampling-based methods主要就是在这块进行创新.

采样方法的一个普遍问题是: 会出现Over generalization现象, 特别是对于有合成Synthetic新的样本的这一类方法, 如果生成不当的样本,甚至可能会降低模型的性能.

经典的Data level 方法

SMOTE (Synthetic Minority Over-sampling Technique)

论文:
SMOTE: Synthetic Minority Over-sampling Technique, JAIR 2002;

基本思路: 通过合成少数类samples, 合成的具体思路就是找少数类样本的紧邻, 然后在少数类样本和紧邻样本的连线上进行插值.

相关改进文章:

  1. Geometric SMOTE a geometrically enhanced drop-in
    replacement for SMOTE, Information Science, 2019.
  2. DeepSMOTE: Fusing Deep Learning and SMOTE, IEEE TNNLS-2022.

SMOGN

论文: SMOGN: a Pre-processing Approach for Imbalanced Regression;

基本思路: SMOGN也是合成minority classes的samples, 实际上就是在SMOTE的基础上引入了Gaussian Noise, 这也是其名字的由来.

SMOR (Synthetic Minority oversampling technique to deal exclusively with imbalanced Ordinal Regression

论文: Minority oversampling for imbalanced ordinal regression, Knowledge based systems, 2019.

基本思路: 传统过采样方法由于采样区域不准确而导致过泛化问题. SMOR为每个候选生成方向分配weights, 再进一步考虑类别间的Ordering关系,使得violate样本序结构的候选生成方向的weights会被调低.

背景知识: ordinal regression还是为了解决分类问题,只不过标签之间具有序关系, 希望分类结果也能保持其序关系 -> 保序回归.
注: 序关系似乎与可比较关系弱;

imblearn

该库包含用于处理Imbalanced classification的各种代表性方法, 包括上采样和下才样方法.

Reference,
1.https://zhuanlan.zhihu.com/p/95020088;
2.https://blog.51cto.com/yunyaniu/2905218

总结

后续再补充

你可能感兴趣的:(Machine,Learning,分类,机器学习,人工智能)