二分类问题评价指标

二分类问题评价指标

    • 评价指标
    • 准确率
    • 精确率
    • 召回率
    • F1值
    • ROC
    • AUC

评价指标

二分类问题评价指标的相关整理,持续更新。

评价指标是针对同样的数据,输入不同的算法,或者输入相同的算法但参数不同而给出这个算法或者参数好坏的定量指标。

二类分类问题常用的评价指标是精准度(precision)、召回率(recall)、F1值
通常以关注的类为正类,其他类为负类,混淆矩阵表示如下:
二分类问题评价指标_第1张图片
TP—将正类预测为正类数
FN—将正类预测为负类数
FP—将负类预测为正类数
TN—将负类预测为负类数
得出:正样本总数 T = TP + FN, 负样本总数 F = FP + TN
二分类问题评价指标_第2张图片

准确率

准确率=算法分类正确的数据个数/输入算法的数据的个数
         A=(TP+TN)/(T+F)
      使用准确率评价算法有一个问题,就是在数据的类别不均衡,特别是有极偏的数据存在的情况下,准确率这个评价指标是不能客观评价算法的优劣的

精确率

精确率,预测为正的样本占所有正样本的比重
         P=TP/(TP+FP)

召回率

正确预测的数据在总样本中的比重
         R=TP/(TP+FN)=TP/T

    在不同的应用场景下,我们的关注点不同,例如,在预测股票的时候,我们更关心精确率,即我们预测升的那些股票里,真的升了有多少,因为那些我们预测升的股票都是我们投钱的。而在预测病患的场景下,我们更关注召回率,即真的患病的那些人里我们预测错了情况应该越少越好

精准率和召回率是此消彼长的,即精准率高了,召回率就下降,在一些场景下要兼顾精准率和召回率,就有 F1 score

F1值

F1 值,是精确率和召回率的兼顾指标,是精确率和召回率的调和平均数。
      调和平均数的性质,只有当精确率和召回率二者都非常高的时候,它们的调和平均才会高。如果其中之一很低,调和平均就会被拉得接近于那个很低的数
二分类问题评价指标_第3张图片

ROC

ROC (Receiver operating characteristic)接收者操作特征曲线,是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。
横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本 的比例;
纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本 的比例。

ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

AUC

AUC(Area Under Curve),是另一种评价二分类算法的指标,被定义为 ROC 曲线下的面积,这个面积的数值不会大于 1,和 F1 score 差不多,都是综合评价精准率和召回率的指标,只不过绘制 ROC 曲线使用了另外两个此消彼长的指标。
AUC的取值范围一般在0.5和1之间,使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

从AUC判断分类器(预测模型)优劣的标准:

AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
横坐标:假正率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本的比例。
二分类问题评价指标_第4张图片
纵坐标:真正率(True positive rate, TPR),这个其实就是召回率,预测为正且实际为正的样本占所有正例样本的比例。
二分类问题评价指标_第5张图片

诸如逻辑回归这样的分类算法而言,通常预测的都是一个概率值,我们会认为设置一个阈值,超过这个阈值,就预测为其中一类,不超过这个阈值,定义为另外一类。于是,不同的阈值就对应了不同的假正率和真正率,于是通过不同的阈值就形成了假正率和真正率序列,它们就可以在直角坐标系上通过描点成为光滑曲线。这个曲线就是 ROC 曲线,ROC 曲线下的面积就是 AUC。
AUC 高的算法通常认为更好。

那么为什么不用精准率和召回率画曲线求面积呢,其实是完全可以的。

精确率-召回率曲线也叫 pr 曲线,如下图

二分类问题评价指标_第6张图片
而 roc 曲线,如下图:
二分类问题评价指标_第7张图片

pr 曲线从左到右是下降的,roc 曲线从左到右是上升的,个人认为二者皆可,不过大家普遍都采用 roc 曲线(上面两张图片都来自 scikit-learn 官方网站)

参考文章:https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

你可能感兴趣的:(机器学习)