ROC曲线特征

An Introduction to ROC Analysis [T. Fawcett, 2005]

ROC

ROC是以FPR为X轴,以TPR为Y轴的曲线。表示的是模型的效果(由TPR表示)和损失(由FPR代表)的相对关系和取舍概况。
分类器对不同样本给出了更偏向正例还是反例的的概率值,然后这些概率值可以和一些人为设定的阈值比较从而得出最终的分类结果。例如,大于阈值的就是正例,小于阈值的就是反例。可以看出,不同的阈值设定对最终结果有很大的影响,ROC曲线表示的就是在不同阈值的设定下,分类结果的呈现。

ROC特点

  • 左下角的点(0,0)代表了分类器从来不做任何分类,既没有正例也没有反例,既没有正确的分类,也没有错误的分类;
  • 右上角的点(1,1)代表了分类器无脑对样本分正例,所有的样本都被分为了正例;
  • 右下角的点(1,0)代表了分类器无脑分反例;
  • 左上角的点(0,1)代表了完美的分类器,全部分类正确,ROC所以越是靠近左上角,说明分类器的效果越好;
  • ROC的对角线代表了随机猜测的结果。

ROC优点

ROC对数据的分布情况不敏感,和P、R、F1等等指标用数值衡量不同,ROC使用的是“率”的概念,所以就对数值变化免疫了。

下图是样本分类发生大幅度变化时,ROC和P-R曲线的表现:
ROC曲线特征_第1张图片

AUC

AUC曲线是指ROC曲线下的面积。
- 其取值应该在0.5到1之间,小于0.5的分类器表现还不如随机的(ROC的对角线),如果真的还不如0.5,那么反过来就好了…
- 如果用面积的概念来看待AUC,那么AUC的计算就是一个个矩形的加总。但是当样本量增加的时候,计算起来会很复杂。

AUC是一个正负样本排序的概率值,具体来讲,是分类器将随机正例排序高于随机反例的概率

the AUC of a classifier is equivalent to the probability that the classifier will rank a randomly chosen positive instance higher than a randomly chosen negative instance

你可能感兴趣的:(机器学习,数据处理方法)