计算机视觉相关的评价指标

目录:

一:准确率 (Accuracy) 、错误率 (Error rate)

二:混淆矩阵 (Confusion Matrix)

三:召回率(Recall)、精确率(Precision)

四: P-R曲线、平均精度(Average-Precision,AP)、F指标

五:受试者工作特征曲线(Receiver Operating

Characteristic,ROC)、AUC(Area Under Curve)、

EER(Equal Error Rate)

六: 平均精度均值(Mean Average Precision,mAP)、

IOU(Intersection Over Union)

七:参考文献


一:准确率 (Accuracy) 、错误率 (Error rate)


准确率 (Accuracy):

分对的样本数除以所有的样本数 ,即:

准确(分类)率=正确预测的正反例数 / 总数


错误率(error rate):

错误率则与正确率相反,描述被分类器错分的比例,即:

误分类率=错误预测的正反例数/总数 = 1 - 准确(分类)率


准确率一般用来评估模型的全局准确程度,不能包含太多信息,全面评价一个模型,其中混淆矩阵是一个常用的手段。

二:混淆矩阵 (Confusion Matrix)

混淆矩阵又被称为错误矩阵, 在每个类别下,模型预测错误的结果数量,以及错误预测的类别和正确预测的数量都在一个矩阵下面显示出来,方便直观的评估模型分类的结果。

计算机视觉相关的评价指标_第1张图片

混淆矩阵中的横轴是模型预测的类别数量统计,纵轴是数据真实标签的数量统计。

对角线,表示模型预测和数据标签一致的数目,所以对角线之和除以测试集总数就是准确率。

对角线上数字越大越好,在可视化结果中颜色越深,说明模型在该类的预测准确率越高。

如果按行来看,每行不在对角线位置的就是错误预测的类别。

总的来说,我们希望对角线越高越好,非对角线越低越

好,可视化对角线时可以归一化处理。


三:召回率(Recall)、精确率(Precision)


虽然我们的模型处理的是多标签的分类任务,在一些场景中我们更加关注的可能是某一个类别对错与否的标签,相当于一个二分类。比如在做一个查找某个对象的任务。

当样本不均衡是,如正样本10,负样本990,这时即使模型把1000个样本全部预测为负样本,准确率(Accuracy)也有99%,这显然是有问题的。这里可以考虑用其他指标。

预测是否的二分类混淆矩阵:

计算机视觉相关的评价指标_第2张图片

分类目标只有两类,计为正例(positive)和负(negtive):

 1) True positives(TP): 被正确地划分为正例的个数,即实际 为正例且被分类器划分为正例的实例数(样本数);

 2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;

 3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;

4)True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。


召回率(recall):

又被称为查全率,预测为正例(positive)的样本中正确的数量除以真正的Positive的数量,即:

Recall=TP/(TP+FN)=TP/P


精确率(Precision):

又被称为查准率,被分为正例的示例中实际为正例的比例,即:

Precision=TP/(TP+FP)

这里放出一张wikipedia上的图:

计算机视觉相关的评价指标_第3张图片

这里有一个隐藏的假设,就是类别的判断是根据每个类别的概率的最大值确定的。

在多分类中如最后经过一个softmax层得到的是某个概率最大值,然而对于二分类,往往把模型预测为某个对象的概率从高到低排序,并且和真实标签对应。

这时我们会设置某个阈值,大于这个阈值的分为正样本,反之为负样本。随着选取的阈值不同,得到的指标是不一样的。这时我们可以画P-R曲线。

四: P-R曲线、平均精度(Average-Precision,AP)、F指标


P-R曲线:

选取不同阈值时对应的精度和召回画出来

计算机视觉相关的评价指标_第4张图片

总体趋势,精度越高,召回越低,当召回达到1时,对应概率分数最低的正样本,这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。

平均精度(Average-Precision,AP):

P-R曲线围起来的面积,通常来说一个越好的分类器,AP值越高。


F指标(F-Measure):

实际应用到分类时,需要综合考虑精度,召回。选取一个阈值,F-Measure是选取这个阈值的常用手段:

计算机视觉相关的评价指标_第5张图片

 是关与召回的权重,大于1说明更看重召回的影响,小于1则更看重精度,等于1相当于两者的调和平均,这里得到一个常用的指标F1-Measure。

F1指标(F1-Measure):

计算机视觉相关的评价指标_第6张图片

想用F1指标时,只需要选取F1指标最大时的阈值即可。

五:受试者工作特征曲线(Receiver Operating

Characteristic,ROC)、AUC(Area Under Curve)、

EER(Equal Error Rate)

通过选取不同的阈值还可以得到另外一种常见的受试者工作特征曲线,简称ROC曲线,方法类似P-R曲线,根据不同的阈值,横轴为FPR,纵轴为TPR的曲线。


计算机视觉相关的评价指标_第7张图片

ROC关注两个指标:

1) True Positive Rate ( TPR ) = TP / [ TP + FN] ,TPR代表能将正例分对的概率

2)False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将负例错分为正例的概率


计算机视觉相关的评价指标_第8张图片

曲线左下和右上代表一个完全没有效果的分类器,如果曲线在对角线左上,说明分类器有效果,在右下说明是负效果。

越靠近左上效果越好,理想的分类器对应的ROC曲线和(0,0)、(0,1)、(1,1)所在折线重合。


AUC(Area Under Curve):

ROC曲线围住的面积,越大,分类器效果越好。


EER(Equal Error Rate):

指的是FNR=FPR的情况,因为FNR=1-TPR,所以在ROC曲线中就是曲线和(0,1)、(1,0)对角线的交点。从漏检和误检的角度,FPR理解为对正样本的漏检率,FNR则是预测为正样本的误检率。EER是均衡考虑这两者时的阈值选定标准。

六: 平均精度均值(Mean Average Precision,mAP)、

IOU(Intersection Over Union)


评价一个检测算法时,主要看两个指标,即是否正确的预测了框内物体的类别;预测的框和人工标注框的重合程度。


平均精度均值(Mean Average Precision,mAP):

mAP即是把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表着对检测到的目标平均精度的一个综合度量。

计算机视觉相关的评价指标_第9张图片

IOU(Intersection Over Union):

IOU用来衡量预测的物体框和真实框的重合程度,即:


计算机视觉相关的评价指标_第10张图片

计算机视觉相关的评价指标_第11张图片

蓝色的框是:GroundTruth

黄色的框是:DetectionResult

绿色的框是:DetectionResult ⋂GroundTruth

红色的框是:DetectionResult ⋃GroundTruth


即两个框的交并比,评价一个算法的时候,一种常见的方法是先设置一个IOU的阈值,只要算法找到的IOU大于这个阈值,就是一个有效的检测,把记过拿出来计算mAP作为最终的评价指标。


你可能感兴趣的:(CV)