SVM二分类和多分类问题的关键指标(二)

上一篇中讲到的二分类问题关键指标(precision、recall、accuracy、F1-score)和多分类问题关键指标(Macro-average、Micro-average、Weighted-average、accuracy)可以帮助我们了解到:可以用哪些指标来大概评估分类模型的好坏。

依据个人理解,这篇即将讲到的ROC曲线、AUC面积以及P-R曲线是将这些指标进行可视化可以进行不同模型比较和阈值的选择

一、ROC曲线

举栗子说明:

该模型的Accuracy达到0.9,实际上该模型一个阳性都没有识别出来,由此可见,accuracy单独使用时并非一个很好的指标。

此时引入几个新的指标:

SVM二分类和多分类问题的关键指标(二)_第1张图片

TPR就是Recall召回率。 

阈值可以进行调整,计算出每个阈值对应的 FPR和TPR,并以FPR为横坐标,TPR为纵坐标连线画图,即为ROC曲线

SVM二分类和多分类问题的关键指标(二)_第2张图片

SVM二分类和多分类问题的关键指标(二)_第3张图片  最好的阈值的需要视情况而定的。

二、AUC面积

ROC曲线除了可以进行阈值调整之外,还可以进行模型比较,下图中有三条ROC曲线

SVM二分类和多分类问题的关键指标(二)_第4张图片

AUC即为ROC曲线下方面积,AUC可以用来判断模型的优劣,一般来说AUC值越大越好。 

上图中有三条ROC曲线,如果评估这三个模型,可以从两个方面。第一,从ROC曲线方面,越靠近左上角模型越好,因此A>B>C;第二,从AUC值方面,AUC值越大越好,因此也是A>B>C。

三、P-R曲线

通过不断调整阈值,计算每一阈值对应下的Precision和Recall,得到的曲线即为P-R曲线。

你可能感兴趣的:(分类)