分类不平衡问题

数据不平衡问题

        答案取决于数据

        平衡数据

                少数样本过采样

                多数样本欠采样

                合成少数类样本

        舍弃少数类,切换成异常检测框架

        算法层面

                调整分类权重                        

                调整决策阈值

                使现有算法对少数类更敏感    

        构造一个在不平衡数据上表现更好的全新算法


如何正确评估

        不要使用准确度(错误率)来评估分类器

        使用ROC曲线、准确率召回曲线(precision-recall curve)、Lift曲线或利润(收益)曲线(profit(gain)curve)对分类器表现进行可视化

你可能感兴趣的:(分类不平衡问题)