数据分析不平衡数据如何处理

1.收集更大量的数据,本身策略没有问题,但是实际上很可能是再次收集后的数据依然不平衡,这种方法就是失去了效果。

2.改变性能指标:

根据混淆矩阵来计算预测率与召回率

使用F1-Measure,也就是精确率和召回率的调和均值。

使用kappa指标来评价系统

使用ROC曲线来评价系统

3.对数据集进行重复抽样

可以得到五五开样本的数据集,但是容易过抽样,导致系统拟合偏向小样本。但是总是比原来要好许多。

SMOTE (Synthetic Minority Over-Sampling Technique)技术来处理不平衡数据。

你可能感兴趣的:(数据分析不平衡数据如何处理)