分类任务一般有二分类、多分类和多标签分类。
多分类: 表示分类任务中有多个类别,但是对于每个样本有且仅有一个标签,例如一张动物图片,它只可能是猫,狗,虎等中的一种标签(二分类特指分类任务中只有两个类别)
多标签: 一个样本可以有多个标签。例如文本分类中,一个文本可以是宗教相关,也可以是新闻相关,所以它就可以有两个标签。
常见的评价指标有:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等,本文将对上述指标进行讲解。
混淆矩阵是数据科学和机器学习中经常使用的用来总结分类模型预测结果的表,用n行n列的矩阵来表示,将数据集中的记录按照“真实的类别”和“预测的类别”两个标准进行汇总。以二分类任务为例,混淆矩阵的结构如下:
TP = True Postive = 真阳性; FP = False Positive = 假阳性
FN = False Negative = 假阴性; TN = True Negative = 真阴性
TP:表示实际为正被预测为正的样本数量,
FP:表示实际为负但被预测为正的样本数量,
FN:表示实际为正但被预测为负的样本的数量,
TN:表示实际为负被预测为负的样本的数量。
另外,TP+FP表示所有被预测为正的样本数量,同理FN+TN为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。
准确率是分类正确的样本占总样本个数的比例,即:
其中,n_correct为被正确分类的样本个数,n_total为总样本个数。
结合上面的混淆矩阵,公式还可以这样写:
准确率指标的缺陷:
准确率是分类问题中最简单直观的评价指标,但存在明显的缺陷。比如如果样本中有99%的样本为正样本,那么分类器只需要一直预测为正,就可以得到99%的准确率,但其实际性能是非常低下的。也就是说,当不同类别样本的比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。
精确率指模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。计算公式为:
1.3.1 多分类任务精确率的两种方式:
1.3.2 宏平均和微平均的比较:
召回率指实际为正的样本中被预测为正的样本所占实际为正的样本的比例。
召回率直观地说是分类器找到所有正样本的能力. 召回率最好的值是1,最差的值是0.
F1 score也被叫做F-score或F-measure。F1 score可以解释为精确率和召回率的加权平均值.
F1 score的最好值为1,最差值为0. 精确率和召回率对F1 score的相对贡献是相等的。
F1 score是精确率和召回率的调和平均值,计算公式为:
评价一个模型的好坏,不能仅靠精确率或者召回率,最好构建多组精确率和召回率,绘制出模型的P-R曲线。
下面说一下P-R曲线的绘制方法。P-R曲线的横轴是召回率,纵轴是精确率。P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表当阈值最大时模型的精确率和召回率。
在ROC曲线中,横轴是假正例率(FPR),纵轴是真正例率(TPR)。
ROC曲线也需要相应的阈值才可以进行绘制,原理同上的PR曲线。
下图为ROC曲线示意图,因现实任务中通常利用有限个测试样例来绘制ROC图,因此应为无法产生光滑曲线,如右图所示。
绘图过程:
ROC曲线图中的四个点
ROC曲线和PR曲线对比:
AUC:
AUC (Area under Curve):ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。
参考链接:https://www.jianshu.com/p/ac46cb7e6f87
参考链接:
浅析VOC数据集的mAP的计算过程 | 严鸿昌的个人博客
目标检测中的precision,recall,AP,mAP计算详解 - 韩昊 - 博客园
计算在所有点中执行的插值
通过内插所有点,平均精度(AP)可以解释为PR曲线的近似AUC。目的是减少曲线中摆动的影响。通过应用之前给出的方程,我们可以获得这里将要展示的区域。我们还可以通过查看从最高(0.4666)到0(从右到左看图)的Recall来直观地获得插值精度点,并且当我们减少Recall时,我们收集最高的精度值如下图所示:
最新的目标检测相关论文都使用coco数据集来展示自己模型的效果。对于coco数据集来说,使用的也是Interplolated AP的计算方式。与Voc 2008不同的是,为了提高精度,在PR曲线上采样了100个点进行计算。而且Iou的阈值从固定的0.5调整为在 0.5 - 0.95 的区间上每隔0.5计算一次AP的值,取所有结果的平均值作为最终的结果。