这里介绍用于Imbalanced classification的采样方法, 也就是所谓的Data-level methods. 这类方法实际上可以看做是数据的pre-processing, 其基本思路就是通过采样Sampling把训练集从imbalanced变为balanced, 然后采用经典的分类方法来训练模型.
当然,谈到采样,(1) 最简单的就是没有生成新样本的naive sampling, (2) 还有一种就是会合成Synthetic新的样本, 那么如何合成samples则是一个有挑战性的问题. 事实上,很多sampling-based methods主要就是在这块进行创新.
采样方法的一个普遍问题是: 会出现Over generalization现象, 特别是对于有合成Synthetic新的样本的这一类方法, 如果生成不当的样本,甚至可能会降低模型的性能.
论文:
SMOTE: Synthetic Minority Over-sampling Technique, JAIR 2002;
基本思路: 通过合成少数类samples, 合成的具体思路就是找少数类样本的紧邻, 然后在少数类样本和紧邻样本的连线上进行插值.
相关改进文章:
论文: SMOGN: a Pre-processing Approach for Imbalanced Regression;
基本思路: SMOGN也是合成minority classes的samples, 实际上就是在SMOTE的基础上引入了Gaussian Noise, 这也是其名字的由来.
论文: Minority oversampling for imbalanced ordinal regression, Knowledge based systems, 2019.
基本思路: 传统过采样方法由于采样区域不准确而导致过泛化问题. SMOR为每个候选生成方向分配weights, 再进一步考虑类别间的Ordering关系,使得violate样本序结构的候选生成方向的weights会被调低.
背景知识: ordinal regression还是为了解决分类问题,只不过标签之间具有序关系, 希望分类结果也能保持其序关系 -> 保序回归.
注: 序关系似乎与可比较关系弱;
该库包含用于处理Imbalanced classification的各种代表性方法, 包括上采样和下才样方法.
Reference,
1.https://zhuanlan.zhihu.com/p/95020088;
2.https://blog.51cto.com/yunyaniu/2905218
后续再补充