一文读懂AUC-ROC

点击我爱计算机视觉标星,更快获取CVML新技术


本文来自于纯真学者出神入化公众号。

英文原文:

https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5

在机器学习中,性能测量是一项重要任务。当涉及到分类问题时,我们依靠 AUC  -  ROC 曲线来做性能评测。当我们需要检查或可视化多类分类问题的性能时,我们使用 AUC (曲线下面积)和 ROC (接收器操作特性)曲线。它是检查任何分类模型性能的最重要的评估指标之一。AUC有时也被写为 AUROC (接收器工作特性下的区域),本篇文章我们将着重于回答以下问题:

 

1.什么是AUC  -  ROC曲线?

 

2.定义AUC和ROC曲线中使用的术语。

 

3.如何推测模型的性能?

 

4.灵敏度,特异性,FPR和阈值之间的关系。

 

5.如何使用AUC-ROC曲线进行多类别分类?

什么是AUC-ROC 曲线?

AUC - ROC曲线是在各种阈值设置下的分类问题的性能测量方法。 ROC是概率曲线,AUC表示可分离性的程度。它告诉我们有关模型区分的能力。 AUC越高,模型越好,将0预测为0,将1预测为1。AUC越高,模型越好区分疾病患者和无疾病患者。用TPR对FPR绘制ROC曲线,其中TPR在y轴上,FPR在x轴上。

一文读懂AUC-ROC_第1张图片

定义一些术语

True Positive Rate/Recall/Sensitivity

Specificity

False Positive Rate

一文读懂AUC-ROC_第2张图片

一个优秀的模型具有接近1的AUC,这意味着它具有良好的可分离性。一个糟糕的模型的AUC接近0,这意味着它具有最差的可分离性度量。事实上,这是对结果的颠倒。它将0预测为1,将1预测为0。当AUC为0.5时,意味着模型没有任何类别分离能力。

 

进一步用图形来解释:ROC是概率曲线。因此,让我们绘制这些概率的分布:

 (注意:红色分布曲线是阳性分类(患有疾病的患者),绿色分布曲线是阴性分类(没有疾病的患者))。

这是一个理想的情况。当两条曲线完全不重叠时,模型具有理想的可分离性度量。它完全能够区分TP和TN。

一文读懂AUC-ROC_第3张图片


当两个分布重叠时,我们引入类型1和类型2错误。根据阈值,我们可以最小化或最大化它们。当AUC为0.7时,意味着该模型有70%的可能区分正类和负类。

一文读懂AUC-ROC_第4张图片

下面是最糟糕的情况。当AUC约为0.5时,模型没有区分正类和负类的辨别能力。

一文读懂AUC-ROC_第5张图片

当AUC大约为0时,模型实际上是对类进行了颠倒。这意味着,模型将负类预测为正类,反之亦然。

一文读懂AUC-ROC_第6张图片


如何用AUC-ROC 曲线做多类别分类?

在多类别模型中,我们可以使用One vs ALL方法为N个数字类绘制N个AUC-ROC曲线。因此,例如,如果你有三个名为X,Y和Z的类,你将有一个针对Y和Z分类的X的ROC,针对X和Z分类的Y的另一个ROC,以及针对Y和X分类的Z的第三个ROC 。

加群交流

关注各种神奇的计算机视觉技术,欢迎加入52CV专业讨论群,扫码添加CV君拉你入群,

(请务必注明:52CV)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:702781905。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视

你可能感兴趣的:(一文读懂AUC-ROC)