非均衡分类问题

y'/(1-y') = y/(1-y)*m-/m+ 

基本策略——“再缩放” rescaling


混淆矩阵

正例判为正例: True Positive  反例判为反例: True Negative, 正例判为负例: False Negative, 负例判为正例: False Positive

正确率 = TP/(TP+FP)

召回率 = TP/(TP+FN)

ROC曲线:  x轴假阳率,y轴真阳率,好的分类器应尽可能处于左上角


1.欠抽样:删除样例 ,时间开销小,代表性算法EasyEnsemble,利用集成学习,将反例划分为若干个集合供不同学习器使用,对每个学习器都是欠抽样,但全局来看不会造成信息丢失

2.过抽样:复制样例,不是直接简单复制,而是采用插值来产生额外的正例,代表算法SMOTE

3.直接基于原始训练集进行学习,但在预测阶段,进行“阈值移动“

正例少,反例多,如果对正例进行过抽样,容易导致过拟合。

你可能感兴趣的:(非均衡分类问题)