ROC PRC

1. ROC和ROC AUC

ROC曲线是一种评定二分类模型对正类预测效果的曲线图。x 轴是假阳率(FPR),y 轴是真阳率(TPR)

F P R = F P F P + T N FPR = \frac{FP}{FP+TN} FPR=FP+TNFP 反例说错了多少

T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP 正例里预见了多少

所以,ROC 曲线可以理解为正例里预见了多少(y 轴)对上反例说错了多少(x 轴)

理想情况下,当然希望是正例全都判断对的比例为 1(图像顶部),说错的反例占比为 0(图像左部)。这说明性能最好的最优分类器是在图像左上角(坐标 0,1)

阈值是指判断归于正例还是反例的概率分割点,不论什么分类器默认是 0.5,介于输出半程(0 和 1 中间)。因为阈值的存在,真阳率和假阳率之间存在着权衡,选择不同阈值探求真正例和假正例分布效果,画在图上就是从左下角向右上角延伸,同时偏向左上角的曲线,即 ROC 曲线。

纯随机无分别能力的分类器在图像中是对角线,左起假阳率为 0,真阳率为 0(坐标 (0,0) 或者说全预判为假),右至假阳率为 1,真阳率为 1(坐标 (1,1) 或全预判为真)。如果绘制曲线在对角线以下,直观上性能比随机还差,表现为总说反话,这时可以对这种分类器结果取反。

ROC PRC_第1张图片

ROC曲线下方面积 AUC

尽管 ROC 曲线作为诊断工具来讲很不错了,但如果要比对两类以上的曲线就变得有些麻烦了。

而曲线下方面积就很巧妙的通过一个值表示了所有阈值下的分类效果,这叫 ROC 曲线下面积或 ROC AUC 或 ROCAUC

面积值介于 0,1 之间。AUCROC 可以被理解为给定分类器,随机抽到正例排在反例前的概率

ROC AUC的缺点
少数类样本极少的极端不均衡分类问题中,ROC AUC 很容易被误导,预测结果正确数多一点或少一点都会带来 ROC 曲线和 ROC AUC 值的巨大变动

准确-召回曲线与AUC

准确-召回曲线(PR Curve)以准确率为 y 轴,召回率为 x 轴,根据概率阈值的取值变动画线。

理想中的模型应该在(1,1)坐标点上。性能优异的模型表现为尽量向该点靠近。随机模型则会呈现为一条水平线,取值为数据集内正例比例。平衡数据集是 0.5。

ROC PRC_第2张图片

准确-召回 AUC
面积值可用于对二分类问题下不同模型间的比较,性能越好值越接近 1

你可能感兴趣的:(机器学习)