本文是处理样本不均衡的第三种方法。思路也很简单:从样本量比较多的类别中随机抽取一定数量的样本,与样本量比较小的类别组合在一块儿训练模型。这样会训练出好几个模型,最后在应用时,使用组合的方法(例如投票、加权投票等)产生分类预测结果。例如,若数据集中的正、负样本的比例为1:10。此时可以将负样本随机分为10份(或者每次随机抽取和正样本相同数量的负样本),然后和所有的正样本组成训练集。这样可以得到10个训练集,分别输入模型之后就可以得到10个训练模型。
这种方式其实借鉴了集成学习中的bagging思想,随机森林就是决策时基于这种思想组合而成的。但是因为这种方法要分别训练多个模型,所以耗时比较长。如果等得起,相对于单一模型绝对可以得到一个更好的提升。
小时候看《西游记》,太上老君的炼丹炉里,炼了九九八十一天的仙丹,绝对会比练了七七四十九天的仙丹有更厉害的功效,果然小说来源于生活。
在scikit-learn中,有一个BaggingClassifier
类,专门用来实现Bagging思想。只是这个包只能对正负样本等比例采样,也就是采样后的正负类别比例和原来数据集正负样本比例是相同,并没有实现我们使采样后正负样本趋于平衡的目的。可喜可贺的是,imblearn
包也基于scikit-learn实现了随机森林算法,而且加了一个sampling_strategy
参数,来控制自定义采样后正负样本比例,sampling_strategy参数可选参数如下:
特别提醒一句:安装这个包使用以下语句:pip install imbalanced-learn
,而导入这个包只需要:import imblearn
即可。
我们对比一下不加处理的随机森林算法和采样时注重数据集均衡的情况下模型的表现。
1)导入相关的包和生成数据集
from imblearn.ensemble import BalancedRandomForestClassifier #导入imblearn中随机森林包
from sklearn.ensemble import RandomForestClassifier #导入sklearn中的随机森林包
from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score
import numpy as np
############################ 生成不均衡的分类数据集###########
from sklearn import datasets
X,Y = datasets.make_classification(n_samples = 10000,
n_features = 4,
n_classes = 2,
weights = [0.95,0.05])
train_x,test_x,train_y,test_y = train_test_split(X,Y,test_size=0.1,random_state=0)
这里,我们生成了数据集大小为10000的数据集。
2)sklearn包中的随机森林算法训练模型
###############随机森林实现##################
from sklearn.ensemble import RandomForestClassifier
RF = RandomForestClassifier(random_state = 66,
n_estimators = 100)
RF.fit(train_x, train_y)
y_pred1 = RF.predict(test_x)
print('召回率: ',recall_score(test_y, y_pred1))
输出:
召回率: 0.625
3)imblearn包中的随机森林算法训练模型
eec = EasyEnsembleClassifier(random_state = 66,sampling_strategy = 'not minority',n_estimators = 100)
eec.fit(train_x, train_y) #
y_pred = eec.predict(test_x)
print('召回率: ',recall_score(test_y, y_pred))
输出:
召回率: 0.9166666666666666
在两个算法中,我们控制其生成了相同的树的棵数,只是第二个随机森林算法中,每次使用所有的少数类样本,然后抽取等量的多数类样本组成训练集进行训练。
可以看到,虽然第二种算法可能因为采样过程更为复杂,所以耗时更长,但是获得了更好的召回率。
如果想训练多个SVM等算法进行集成学习,可以使用imblearn中的ensemble.BalancedBaggingClassifier
这个包,可以自己定义子算法。
【注:在0.2版本中,还可以使用imblearn.ensemble.EasyEnsemble
这个函数来随机划分数据集,但是这个 函数在0.6版本之后这个函数就已经移除了。】
对于二分类问题,如果正负样本分布比例极度不平衡,我们可以换一个角度来看待问题:把它看做一分类(One Class Learning)或异常检测(Novelty Detection)问题。
仔细想想,银行业务中的洗钱交易、信用卡中的不良贷款都算是在大多数正常行为中的一些异常行为。这也启示我们,有时候换个角度想想,问题就会有新的解决方案。
而这类异常检测方法的重点不在于捕捉类间的差别,而是找到其中我们关注的一类的特征,不符合这类特征的,都可以算作是另外一类。主要用到的方法是一类SVM(One-class SVM)算法。
One Class SVM 是指你的训练数据只有一类正(或者负)样本的数据, 而没有另外的一类。在这时,你需要学习的实际上你训练数据的边界。而这时不能使用最大化软边缘了,因为你没有两类的数据。模型的训练目标就是找一个离这一类的聚集点比较远的边界。
在scikit-learn中也有One-class SVM的实现,可以参考以下链接:sklearn.svm.OneClassSVM
imblearn官方文档:imblearn官方文档