文本分类-数据倾斜处理方案

1.训练集重新采样分布

1.1 欠采样

欠采样是通过减少丰富类的大小来平衡数据集,当数据量足够时就该使用此方法。通过保存所有稀有类样本,并在丰富类别中随机选择与稀有类别样本相等数量的样本,可以检索平衡的新数据集以进一步建模。

1.2 过采样

当数据量不足时就应该使用过采样,它尝试通过增加稀有样本的数量来平衡数据集,而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法(SMOTE)来生成新的稀有样品。

1.3 优缺点

过采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合;而欠采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了总体模式的一部分。

2.组合不同的重采样数据

建立n个模型,每个模型使用稀有类别的所有样本和丰富类别的n个不同样本。假设想要合并10个模型,那么将保留例如1000例稀有类别,并随机抽取10000例丰富类别。然后,只需将10000个案例分成10块,并训练10个不同的模型。

此方法可以很好地将稀有类别和丰富类别之间的比例进行微调,最好的比例在很大程度上取决于所使用的数据和模型。但是,不是在整体中以相同的比例训练所有模型,所以值得尝试合并不同的比例。如果10个模型被训练,有一个模型比例为1:1(稀有:丰富)和另一个1:3甚至是2:1的模型都是有意义的。一个类别获得的权重依赖于使用的模型。

3.转化为一分类问题

对于二分类问题,如果正负样本分布比例极不平衡,我们可以换一个完全不同的角度来看待问题:把它看做一分类(One Class Learning)或异常检测(Novelty Detection)问题。这类方法的重点不在于捕捉类间的差别,而是为其中一类进行建模,经典的工作包括One-class SVM等。

4.多模型Bagging

bagging算法的特点在于随机采样(bootsrap),也就是有放回的采样。对于Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,则由于随机性,T个采样集各不相同。数学方法可以证明,随机采样的方法中,大约有36.8%的数据不会被采样到,,这部分数据可以用来检测模型的泛化能力。

5.XGBoost

boosting算法中的XGBoost本身的设计可以很好的针对不平衡数据。并且现在的XGBoost实现的接口有专门的参数来控制处理不平衡数据。

6. 转化为无监督学习的聚类,后使用监督学习的分类方法

首先,我们可以对具有大量样本的丰富类进行聚类操作。假设我们使用的方法是 K-Means聚类算法 。此时,我们可以选择K值为稀有类中的数据样本的个数,并将聚类后的中心点以及相应的聚类中心当做富类样本的代表样例,类标与富类类标一致。

经过上述步骤的聚类操作,我们对富类训练样本进行了筛选,接下来我们就可以将相等样本数的K个正负样本进行有监督训练。

7. SMOTE,EasyEnsemble和BalanceCascade

在知乎上看到一个回答,他的数据比例也是两个数量级的差距,他使用的EasyEnsemble效果很好。
这几篇文章是关于这三个算法的:
http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6485152.html
https://blog.csdn.net/u011414200/article/details/50664266
https://blog.csdn.net/march_on/article/details/48650237
https://zhuanlan.zhihu.com/p/36381828

8.imbalanced-learn

一个python包,提供了一些常用于数据集的重新采样技术API.
https://github.com/scikit-learn-contrib/imbalanced-learn

你可能感兴趣的:(大数据组件)