机器学习中ROC曲线和AUC评估指标

目录

      • 1.真正例率(TPR )与 假正例率(FPR)定义
      • 2.ROC曲线(接受者操作特性曲线,receiver operating characteristic curve)
      • 3.AUC(ROC曲线下的面积)指标
      • 参考链接

ROC全称是接受者操作特性曲线(receiver operating characteristic curve)。AUC(Area Under the Curve)ROC曲线下的面积,用于衡量“二分类问题”机器学习算法的性能。对此,为了定义ROC曲线,首先我们由混淆矩阵引入“真正例率”(True Positive Rate,简称TPR)和“假正例率”(False Postive Rate,简称FPR)。

1.真正例率(TPR )与 假正例率(FPR)定义

  • 混淆矩阵可定义为:
      机器学习中ROC曲线和AUC评估指标_第1张图片

  • TPR 与 FPR 的计算公式如下:
       机器学习中ROC曲线和AUC评估指标_第2张图片

假正例率:对应的是真实负样本中分类结果为正样本的比例。

真正例率:对应的是真实正样本中分类结果为正样本的比例。

2.ROC曲线(接受者操作特性曲线,receiver operating characteristic curve)

机器学习中ROC曲线和AUC评估指标_第3张图片
其中横坐标为假正例率(所有负例中,有多少被错误地判定为正),纵坐标为真正例率(所有正例中,有多少被正确地判定为正)。

上图中虚线表示随机猜测算法的ROC曲线。随机猜测是指:对待一个二分类问题,我们不去讨论如何分配,而是随机去分配,这样分到的结果为正确的和错误的都占1/2。因此,其ROC曲线为 y = x y=x y=x,我们可以这么认为:

  • 模型的ROC曲线在随机猜测曲线( y = x y=x y=x)的上方则说明模型的性能较好,并且越靠经左上角,模型可用性越高。
  • 模型的ROC曲线在随机猜测曲线( y = x y=x y=x)的下方则说明模型的性能较差,越靠近右下角,模型越不可用,但这也不是绝对的,如果模型的曲线趋于右下角,说明模型的错误率越高,我们可以试图将结果取反来建立模型。
  • 模型的ROC曲线与随机猜测曲线( y = x y=x y=x)的结果相同,说明模型的效果与随机猜测的效果一致,没有利用的价值,因此,我们要通过调参提高模型的性能。

机器学习中ROC曲线和AUC评估指标_第4张图片

绘制ROC曲线的思想是,通过调整模型预测的阈值可以得到不同的点,将这些点连成的一条曲线。认为模型测试为正样本的概率大于阈值的测试样本为正样本,认为模型测试为正样本概率小于阈值的测试样本为负样本。并且, 阈值取不同值,TPR和FPR的计算结果也不同,最理想情况下,我们希望所有正例和负例都被成功预测( TPR=1,FPR=0),即 所有的正例预测值 > 所有的负例预测值,此时阈值取最小正例预测值与最大负例预测值之间的值即可。但现实中,一般。ROC曲线越靠拢(0,1)点,越偏离45度对角线,模型的性能越好。

3.AUC(ROC曲线下的面积)指标

AUC(Area Under Curve)定义为ROC曲线下的面积,其取值0~1之间,但我们目的是需要使ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准时,很多时候并不能很明显的区别ROC曲线表示的分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
机器学习中ROC曲线和AUC评估指标_第5张图片
我们可以得到以下结论:

  • AUC = 1,是理想分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。一般我们的模型的 AUC值就处于该区间。
  • AUC = 0.5,跟随机猜测一样,模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但是如果取反预测,就优于随机猜测。

参考链接

1.ROC曲线和AUC

你可能感兴趣的:(人工智能,算法,深度学习,分类)