Evaluate the Model: ROC曲线与AUC

Precision,Recall,F1-score

首先介绍precision,recall,f1-score三个概念。

对于二值分类器(positive与negative),用下图表示classifying的结果以及以上三个指标的计算公式。


Evaluate the Model: ROC曲线与AUC_第1张图片

ROC曲线,AUC

一般二值分类器的输出是对每个测试样本是正向分类positive的概率,在判别正负时会选定一个临界值,低于这个值的样本都是负样本,高于这个值的样本都是正样本,再与样本的实际属性,也就是标签做对比计算,得出真阳性率TPR(True Positive Rate)和伪阳性率FPR(False Positive Rate)

TPR = TP/(TP+FN)

FPR = FP/(FP+TN)

如果有N个样本,按照模型输出的概率排序,那我们最多能得到N组TPR,FPR的数据,就能绘出ROC曲线。


Evaluate the Model: ROC曲线与AUC_第2张图片

样本越多,ROC曲线就会越光滑。


Evaluate the Model: ROC曲线与AUC_第3张图片

AUC即是ROC的曲线积分,即多边形的面积。

一般来说AUC值在0.5到1之间,越接近1,说明模型越好;

ROC曲线越接近上图的红线,说明模型越没效果(跟随机瞎猜很相近);

ROC在红线下面,就应该检查是不是标签贴反了,或者是模型真的很差。

你可能感兴趣的:(Evaluate the Model: ROC曲线与AUC)