curve函数 roc_零数学理解ROC-AUC指标

没有数学或公式,只有图像和动画。

curve函数 roc_零数学理解ROC-AUC指标_第1张图片

> Photo by Kalen Emsley on Unsplash

了解轴

这是典型的ROC图:

curve函数 roc_零数学理解ROC-AUC指标_第2张图片

在进行任何其他操作之前,我们需要了解轴的含义。 在不混淆公式的情况下,以下是最简单的解释:

· x轴(假阳性率,或FPR)是模型标记为阳性(假阳性)的实际阴性示例的比例。

· y轴(True Positive Rate,或TPR)是模型标记为正值(True Positive)的实际正例的比例。

注意两者之间的并行性! 本质上,ROC曲线是正正与负正的曲线,两个轴均已标准化。

与阈值的关系

每当我们看到折线图时,我们都倾向于根据时间的线性变化或x轴上表示的某些参数进行思考。 随着我们在x轴上增加参数,折线图也会进行。 思维过程通常是这样的:"对于x轴上的给定值,图表为我提供y轴上的相应值"。

但是ROC如此微妙-它不是从FPR值(x轴)到TPR值(y轴)的映射,因为您不能真正将TPR计算为FPR的函数。 那么,随着ROC曲线远离原点,会有什么变化? 答案是(请打鼓):阈值。

如果我们深入研究大多数分类模型,我们会发现它们不仅为数据点分配标签,还为数据点分配分数,然后将该分数与阈值进行比较,以确定是否将其分类为正数。 或否定:

curve函数 roc_零数学理解ROC-AUC指标_第3张图片

> Classification Models use Scores and Thresholds Under-the-Hood

因此,给定阈值,该模型将为每个数据点生成一个分类。 对于给定的一组分类,您将分别获得TPR和FPR的一个值。 但是,随着阈值的变化,TPR和FPR都将在0到1之间变化。这就是为什么我们说阈值随ROC曲线的变化而变化。

极端案例

为了正确地可视化,让我们开始考虑极端情况; 这将为我们更好地了解ROC曲线在其他情况下的工作原理。

首先,考虑将阈值设置为最大值的情况。 没有任何东西的得分高于阈值,并且没有任何东西被模型标记为肯定。 这是ROC曲线在(0,0)时的情况:

curve函数 roc_零数学理解ROC-AUC指标_第4张图片

现在考虑另一种极端情况-阈值处于最小值时。 一切的得分都高于阈值,并且模型将一切标记为肯定。 这是ROC曲线位于(1,1)时的情况:

curve函数 roc_零数学理解ROC-AUC指标_第5张图片

两者之间的一切

贯穿这两个极端之间的一切看起来像这样:

curve函数 roc_零数学理解ROC-AUC指标_第6张图片

随着模型阈值的降低,肯定预测的总数将增加。 ROC图表示那些阳性预测如何在真阳性和假阳性之间划分。

ROC曲线的理想特性

现在我们知道ROC曲线代表什么,我们可以开始理解什么会使给定的ROC曲线"好"或"不好"。

让我们再次看一看这些轴:

curve函数 roc_零数学理解ROC-AUC指标_第7张图片

很明显,我们要使用"真假阳性",而不要使用"假阳性"。 就轴而言,我们想在y轴上向上移动,但是我们不想在x轴上向前移动。 但是,ROC曲线从(0,0)一直延伸到(1,1)…换句话说,无论如何,您将一直沿x轴移动。

因此,ROC曲线的质量必须与曲线的形状有关。 为了了解什么形状会被认为是好的形状,我们返回到阈值图片以尝试了解什么使分类模型更好。 显然,一个对数据点进行评分的模型如下:

curve函数 roc_零数学理解ROC-AUC指标_第8张图片

比得分如下的数据点差:

curve函数 roc_零数学理解ROC-AUC指标_第9张图片

这比像这样对数据点评分的方法更糟糕(理想情况):

curve函数 roc_零数学理解ROC-AUC指标_第10张图片

如果我们将所有这些及其ROC曲线进行比较,就会出现一个清晰的图样:

curve函数 roc_零数学理解ROC-AUC指标_第11张图片

如果更多的白点(实际上是正数据点)比黑点(实际上是负点)高,则ROC曲线会在y轴(TPR)沿x轴(FPR)前进之前上升。 TPR上升越早,曲线下的面积越大:

curve函数 roc_零数学理解ROC-AUC指标_第12张图片

因此,您经常会看到指标ROC-AUC(曲线下的ROC面积)或AUROC(曲线下的面积)被用作衡量分类算法性能的指标。

本质上,一条更好的ROC曲线是一条曲线下面积更大的曲线,因为这意味着分类模型将更多的阳性样本比阴性样本排名更高,即该模型具有更好的正负数据点分离(在 正确的方向)。

结论

希望这些动画和这些说明使您对ROC曲线是什么以及为什么我们选择ROC曲线下面积作为分类算法性能的度量标准有了更直观的了解。

(本文翻译自Rishabh Malviya的文章《A Zero-Math Intuitive Understanding of the ROC-AUC Metric》,参考:https://towardsdatascience.com/machine-learning-classification-making-sense-of-the-roc-curve-30a510bba81d)

你可能感兴趣的:(curve函数,roc)