不平衡类问题-分类的评估指标

分类指标

不平衡类问题-分类的评估指标_第1张图片
wiki上根据混淆矩阵衍生的各类指标

1.混淆矩阵

不平衡类问题-分类的评估指标_第2张图片
混淆矩阵

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。

准确率 ACC

(预测为正实际为正 + 预测为负实际为负) / 所有样本数

加权准确率

分别为TP FP FN TN 加上系数权重
如 (w1TP + w4TN) / (w1TN + w2FP + w3FN + w4TN)

精确率 p

预测为正实际为正 / 所有预测为正

召回率(真正率) r

预测为正实际为正 / 所有实际为正

真正率 TPR

预测为正实际为正 / 所有实际为正

真负率 TNR

预测为负实际为负 / 所有实际为负

假正率 FPR

预测为正实际为负 / 所以实际为负

假负率 FNR

预测为负实际为正 / 实际实际为正

F1指数

2 * 精确率 * 召回率 / (精确率 + 召回率) 越高, 效能越好

受试者操作特征曲线

不平衡类问题-分类的评估指标_第3张图片
POC曲线

(a)理想情况下,TPR应该接近1,FPR应该接近0。
ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。
比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)
(b)随着阈值theta增加,TP和FP都减小,TPR和FPR也减小,ROC点向左下移动;

auc 曲线下面积

曲线下面积越大, 模型性能越好

假设检验 中的第一类问题(漏报)和第二类问题(误报)(一般重视第二类问题)

不平衡类问题-分类的评估指标_第4张图片
image.png

不平衡类问题-分类的评估指标_第5张图片
image.png

第一类错误 漏报
第二类错误 误报

针对类别不平衡问题, 由于需要尽量避免第二类误差, 引入代价敏感学习

不平衡类问题-分类的评估指标_第6张图片
代价矩阵

使用抽样类解决类别不平衡问题

上采样
下采样

针对不平衡问题, 应该采取的方法

什么也不做。有时好运就这样降临在你的头上:你什么都不需要做。你可以使用所谓的自然(或分层)分布来进行训练,有时不需任何修改就能正常运行。

通过某些方法使得数据更加平衡:

对少数类进行过采样

对多数类进行欠采样

合成新的少数类

舍弃所有少数类,切换成一个异常检测框架。

在算法层面之上(或之后):

调整类的权重(错误分类成本)

调整决策阈值

使已有的算法对少数类更加敏感

构造一个在不平衡数据上表现更好的全新算法。

你可能感兴趣的:(不平衡类问题-分类的评估指标)