如何理解西瓜书中AUC和Lrank

首先AUC的定义就是ROC曲线的面积。这是西瓜书上给的定义式子如何理解西瓜书中AUC和Lrank_第1张图片
很容易看出是微积分的思想。

为什么说AOC越大ROC越理想呢?首先思考一下ROC的定义是什么,从定义入手一切都很简单。只不过是概念多了可能会把你给绕糊涂了。ROC曲线是这样画出来的:

给定m+个正例和m-个反例,先把分类的阈值设置到最大,也就是所有的例子预测结果都是反例,此时真正例率和假正例率均为0/在坐标原点处(0,0)标记一个点,然后设置阈值依次为每一个样例的预测值,即将每个样例划分为正例。假设前一个坐标点为(x,y),当前若为真正例,则对应标记点的坐标为(x,y+1/m+);若为假正例,则对应标记点的坐标为(x+1/m-,y),然后用线段连接即得

从定义可以看出假正例越多,横轴方向上偏移的越多。我们希望的是在横轴偏移之后,不要再有纵轴方向上的偏移,否则就说明了,有正例排在了反例的后面。 我们看图说明:
我们假设有5个正例,5个反例
1):
我们生成的10个预测值从大到小排序为
12 10 9 8 7 6 5 4 3 1
我们假设前五个都是真正例,后面五个都是真反例,我们一个一个的根据定义画点
如何理解西瓜书中AUC和Lrank_第2张图片
我省略的第9次(画不下了)。根据图可以看见,若没有反例在正例之前的话,把这些连起来就是一个倒 L 的折线。
注意现在
2):我们给3个正例,7个反例

我们生成的10个预测值从大到小排序为
12 10 9 8 7 6 5 4 3 1
我们假设第3个为假正例(也就是个是反例,但是我们预测错了,而认为他是正例)第七个为假反例。其余的都和 (1)一样,我们再一个一个的根据定义画点如何理解西瓜书中AUC和Lrank_第3张图片
从这两张图你应该可以看出,如果反例排在正例前面的话,则会向右偏之后再向上偏。这是我们不希望看到的,因为我们希望我们预测的是正确的,就是说我们预测好的结果,就是正例在反例前,不存在反例在正例前面。

我们再观察ROC曲线,(当然我上面画的点比较少,你可以看看西瓜书上面的),发现如果反例排在正例前面越多的话,那么我的ROC曲线和横轴所围的面积越小。极端情况正例全部在反例的后面,那么就是向右偏五个点,然后向上偏五个点,这样与横轴所围的面积就是0了。这是最坏的情况,是我们不想看到的。

最好的情况就是我们(1)的那种情况,所有正例都在反例前面所展现出来的ROC曲线。

根据前面我们知道可以根据面积衡量一个预测的结果好坏程度,AUC就是ROC的面积,从而我们可以根据AUC衡量ROC的好坏程度。

西瓜书上还出现了Lrank表示ROC以上的面积,我们很容易联想到那是错误的程度,因为下面面积越大,越理想,这会导致上面的面积越小,也就是越小的错误。至于书上给出的式子,比较数学化不是很好的理解。但如果逐步的分析,其实也不难。
在这里插入图片描述

||(.)表示指示函数,条件成立则为1,否则则为0。(这两个竖杠是连在一起的,但是不知道为啥软件画出来是这样,和罗马数字”Ⅱ“一样)。

下面开始分析,m+和m-的乘积可知是整个的面积,那么那个积分可知就是上面的面积了。x+是正例,x-是反例。

f(x+)

现在再看这个积分其实很简单,先选取第一个假正例(排在正例前的反例),然后看看有哪些正例排在这个反例的后面。对应我之前画的点图的话,也就是在这个反例上方的真正例。(注意这里有两个条件,一个是真正例,一个是在上方,这个上方包括他自己),然后再看第二个假正例,以此类推,我的点图里面只有两个。在真正的学习当中,ROC曲线的点比这个多的多,也正是因为点非常多,所以才趋近于曲线,而不是折线。
如何理解西瓜书中AUC和Lrank_第4张图片

你可能感兴趣的:(机器学习)