特征工程-处理样本不均衡现象

处理样本不均衡现象

样本非均衡现象: 正例子数目与反例数目不相等 (相差很大)

1. 能否收集到更多的数据

2. 尝试使用其他的评价指标
error Rate: 不能用于非均衡的数据集 因此可以使用其他的评价指标
Procision:精准度计算 TPTP+FP T P T P + F P 实际被检索到的(TP+FP)
Recall: 召回率 TPTP+FN T P T P + F N 应该被索引到的(TP+FN)
F1 Score: 精确率和召回率的调和平均
扩展:
Kappa(Cohen’s kappa)
ROC Curves

3.尝试对样本重抽样
使用欠抽样或过抽样
-欠抽样: 意味着删除样例
-过抽样: 意味着复制样例(重复使用)
对大类进行欠抽样
对小类进行过抽样

一些经验法则:
考虑样本(超过1万,十万甚至更多)进行欠采样 即删除部分样本
考虑样本(不足为1甚至更少)进行过采样,即添加部分样本的副本
考虑尝试随机采样与非随机采样两种采样方法
考虑对各类别尝试不同的采样比例,不一定是1:1
考虑同时使用过采样与欠采样

4.尝试产生人工生成的样本
一个简单的方法就是随机抽样小类样本的属性(特征)来组成新的样本即属性值随机采样
采样依据:1.根据经验进行抽样 2.可以使用其他方法比如朴素贝叶斯方法假设各属性之间互相独立进行采样
优点:可得到更多的数据
缺点:但是无法保证属性之间的非线性关系

5.尝试不同的算法
例如:决策树经常在非均衡数据集上表现良好

6.尝试使用惩罚的模型
使用同种算法 但是以不同的角度对待这个问题
惩罚的模型就是对于不同的分类错误给予不同的代价(惩罚)
比如对于错分的小类给予更高的代价 使得模型偏差更加关注小类

通常来说 这种代价或者比重在学习中算法是特定的
基于代价函数的分类器决策控制: TP*(-5)+FP*5+FN*1+TN*0

7.尝试使用不同的角度
其实还有很多研究关于非均衡数据 由自己的算法 度量 术语
异常值测验 和 变化趋势检测
8.尝试去创新
问题细分
1.将你的大类分解为多个较小的类
2.使用One Class分类器(看待成为异常点检测)
对数据集进行抽样成多个数据集 使用集成方法 训练多个分类器 然后联合这些分类器进行分类

你可能感兴趣的:(特征工程,MachineLearning)