非均衡数据分类,以及采样对其的影响

 在分类问题中,经常会遇到分类数据不均衡的情况。在这类task中,直接对目标进行训练,会导致模型倾向于将样本分为majority的那类,这经常会导致minority的类别拥有很低的recall(当然,分类效果的低下,也跟 class overlap以及small disjuncts 有关。)
 undersampling是一个常用的手段(也有不少的场景以及数据环境下,undersampling去除了一些redundant数据,提升了效果,但是本身过程是unsupervised,风险不可控制)(注意,假设被抽样事件为z,只有当y与z相对于x条件独立时,才有p(y|x, z) = p(y|x),也就是说,只有无差别采样,才能保证条件概率不变,但是无差别采样,无法改变正负样本比例【正负样本被同概率采样】)[1]
 关于采样率对后验概率的影响:

Fig.1 P为原数据集后验概率,Ps为采样后数据集的后验概率,beta为采样率(负样本undersampling)

 Fig.1 可以看出来,真实的后验概率越低,对负类负采样*对其后验的影响越大。

Fig.2 采样对不同overlap数据的影响。图为两个单变量分类。两个类别对应的x分别服从(负)N(0,sigma),(正)N(u,sigma),beta为对负样本的负采样比例,两图sigma都为3,左图u=3,右图u=15

 Fig.2 可以看出,在overlap较大的情况下(左图),采样会对后验概率产生更大影响。

refer:
[1] When is undersampling effective in unbalanced classification tasks?(http://www.oliviercaelen.be/doc/ECML_under_v4.pdf)

你可能感兴趣的:(非均衡数据分类,以及采样对其的影响)