纪念版的评分图:
- 在COCO数据中,默认AP就是mAP。
- [email protected][email protected], [email protected][email protected]。以此类推
- 在更早的数据集VOC上的mAP指标就是COCO的[email protected]。
COCO Detection Evaluation翻译
来自百度翻译:
1.Detection Evaluation
本页描述了COCO使用的检测评估指标。这里提供的评估代码可用于获得公开可用的COCO验证集上的结果。它计算了下面描述的多个度量。为了在隐藏了基本真值注释的COCO测试集上获得结果,生成的结果必须上传到评估服务器。下面描述的完全相同的评估代码用于评估测试集上的结果。
2.Metrics
以下12个度量用于表征COCO上的目标检测器的性能:
1)除非另有说明,否则AP和AR在多个交汇点(IoU)值上取平均值。具体来说,我们使用10个IoU阈值0.50:0.05:0.95。这是对传统的一个突破,其中AP是在一个单一的0.50的IoU上计算的(这对应于我们的度量APIoU=.50 )。超过均值的IoUs能让探测器更好定位。
2)AP是所有类别的平均值。传统上,这被称为“平均准确度”(mAP,mean average precision)。我们没有区分AP和mAP(同样是AR和mAR),并假定从上下文中可以清楚地看出差异。
3)AP(所有10个IoU阈值和所有80个类别的平均值)将决定赢家。在考虑COCO性能时,这应该被认为是最重要的一个指标。
4)在COCO中,比大物体相比有更多的小物体。具体地说,大约41%的物体很小(面积<322),34%是中等(322 < area < 962)),24%大(area > 962)。测量的面积(area)是分割掩码(segmentation mask)中的像素数量。
5)AR是在每个图像中检测到固定数量的最大召回(recall),在类别和IoU上平均。AR与提案评估(proposal evaluation)中使用的同名度量相关,但是按类别计算。
6)所有度量标准允许每个图像(在所有类别中)最多100个最高得分检测进行计算。
7)除了IoU计算(分别在框(box)或掩码(mask)上执行)之外,用边界框和分割掩码检测的评估度量在所有方面是相同的。
3. Evaluation Code
评估代码可在COCO github上找到。 具体来说,分别参见Matlab或Python代码中的CocoEval.m或cocoeval.py。另请参阅Matlab或Python代码(demo)中的evalDemo。在运行评估代码之前,请按结果格式页面上描述的格式准备结果(查看具体的结果格式MS COCO数据集比赛参与(participate)(来自官网))。
评估参数如下(括号中的默认值,一般不需要改变):
运行评估代码通过调用evaluate和accumulate产生两个数据结构来衡量检测质量。这两个结构分别是evalImgs和eval,它们分别衡量每个图像的质量并聚合到整个数据集中。evalImgs结构体具有KxA条目,每个评估设置一个,而eval结构体将这些信息组合成 precision 和 recall 数组。这两个结构的细节如下(另请参阅CocoEval.m或cocoeval.py):
最后,summary()根据eval结构计算前面定义的12个检测指标。
4. Analysis Code
除了评估代码外,我们还提供一个函数analyze()来执行误报的详细分类。这受到了Derek Hoiem等人在诊断物体检测器中的错误(Diagnosing Error in Object Detectors)的启发,但在实现和细节方面却有很大不同。代码生成这样的图像:
这两幅图显示了来自2015年检测挑战赛获胜者Kaiming He等人的ResNet(bbox)检测器的分析结果。左图显示了ResNet的人员类别错误;右图是ResNet对所有类别平均值的整体分析。每个绘图是一系列精确召回(precision recall)曲线,其中每个PR曲线被保证严格地高于之前的评估设置变得更宽容。曲线如下:
1)C75:在IoU = 0.75(严格的IoU的AP)的PR(precision),对应于APIoU=.75度量曲线下的面积(area under curve )。
2)C50:IoU = 0.50处的PR(PASCAL IoU处的AP),对应于APIoU=.50度量曲线下面积。
3)Loc:在IoU =0 .10的PR(定位误差(localization errors ignored)被忽略,但不重复检测)。 所有其余的设置使用IoU = 0.1。
4)Sim:超类别误报(fps,supercategory false positives)被移除后的PR值。具体而言,与具有不同类标签但属于同一个超类别的对象的任何匹配都不会被视为fp(或tp)。通过设置同一超类别中的所有对象与所讨论的类具有相同的类标签并将它们的忽略标志设置为1来计算Sim。注意,该人是单例超类别,因此其Sim结果与Loc完全相同。
5)Oth:所有类型混乱被移除后的PR值。与Sim类似,除了现在如果检测与任何其他对象匹配,则不再是fp(或tp)。计算Oth的方法是将所有其他对象设置为与所讨论的类具有相同的类标签,并将忽略标志设置为1。
6)BG:所有背景误报(和类混乱(class confusion))被移除后的PR。 对于单个类别,BG是一个阶跃函数,直到达到最大召回后才降为0(跨类别平均后曲线更平滑)。
7)FN:在所有剩余错误都被删除后(平均AP = 1)的PR。
每条曲线下面的区域显示在图例的括号中。在ResNet检测器的情况下,IoU = 0.75的整体AP为0.399,完美定位将使AP增加到0.682。有趣的是,消除所有类别混乱(超范畴内和超范畴内)只会将AP略微提升至0.713。除去背景fp会将性能提高到0.870 AP,而其余的错误则缺少检测(尽管假设更多的检测被添加,这也会增加大量的fps)。总之,ResNet的错误来自不完美的定位和背景混淆。
对于一个给定的探测器(detector),代码总共产生了372个块(plots)!共有80个类别(category),12个超类别(supercategory),1个总体结果,总共93个不同的设置,分析是在4个尺度(scale)(全部,小,中,大,所以93 * 4 = 372个块)进行。 文件命名为[supercategory] - [category] - [size] .pdf(对于80 * 4每个分类结果),overall- [supercategory] - [size] .pdf(对于12 * 4每个超类别结果)全部[[size] .pdf为1 * 4的整体结果。在所有图中,通常总体和超类别的结果是最感兴趣的。
注意:analyze()可能需要很长时间才能运行,请耐心等待。因此,我们通常不会在评估服务器上运行此代码;您必须使用验证集在本地运行代码。最后,目前analyze()只是Matlab API的一部分; Python代码即将推出。
PR 图计算
两个基本的概念 precision and recall
- 1.上半图中有两种形状。圆形(半圆,整圆)是模型预测出来的结果,方形是原始测试数据
- 2.下半图中有两种颜色绿色(暗绿,亮绿),红色。绿色是预测正确,红色当然就是错误预测。这里没有统计FN。
- 3.整圆包括true positive and false positive,绿色半圆只有true positive,整圆表示模型的预测结果。整方形true positive and true negative,绿色方形true positive,方形表示原始测试数据。
- 4.precision表示的是:预测的n个”正样本positive”中true positive个数占预测的n个“正样本positive”的比例大小。
- 5.recall表示的是:预测的n个”正样本positive”中true positive个数占该模型测试的所有样本中true positive的比例大小。解释TP
举例
在对多标签图像分类时,首先用训练好的模型得到所有测试样本的confidence score,每一类(如car)的confidence score都保存到一个文件中(如test_car.txt)。假设该文件包含20个测试样本(即对应图1中的矩形),每个id, confidence score, ground truth label如下:
接下来按照confidence score从大到小排序
上面虽然有分数,但是我们没有判定每个id是属于哪个类别。这里有两种方法。
- 1.设定阈值,比如score >= 50。
- 2.或者每一类的前五必为该类。
这里悬着第二种方法:
前五如下:
true positives就是指第4和第2张图片,false positives就是指第13,19,6张图片。
前五之后如下:
其中,false negatives是指第9,16,7,20张图片,true negatives是指第1,18,5,15,10,17,12,14,8,11,3张图片
计算Precision @ Recall
- Precision=2/5=40%,意思是对于car这一类别,我们选定了5个样本,其中正确的有2个,即准确率为40%
- Recall=2/6=30%,意思是在所有测试样本中,共有6个car,但是因为我们只召回了2个,所以召回率为30%。
做PR图
实际多类别分类任务中,通常不满足只通过top-5来衡量一个模型的好坏,而是需要知道从top-1到top-N(N是所有测试样本个数,本文中为20)对应的precision和recall。显然随着我们选定的样本越来也多,recall一定会越来越高,而precision整体上会呈下降趋势。把recall当成横坐标,precision当成纵坐标,即可得到常用的precision-recall曲线。例子中precision-recall曲线如下:
图中一共有20个点,也就是使用每个点作为界限点。
VOC计算方法
PASCAL VOC CHALLENGE的计算方法。
-
- 07年的方法:首先设定一组阈值,[0, 0.1, 0.2, …, 1]。然后对于recall大于每一个阈值(比如recall>0.3),都会得到一个对应的最大precision。这样,就计算出了11个precision。AP即为这11个precision的平均值。这种方法英文叫做11-point interpolated average precision。计算曲线的下面积 则为AP。
-
- 10年之后的方法:新的计算方法假设这N个样本中有M个正例,那么会得到M个recall值(1/M, 2/M, ..., M/M),对于每个recall值r,可以计算出对应(r' > r)的最大precision,然后对这M个precision值取平均即得到最后的AP值。计算方法如下:
对于上面的例子中。一共有20个测试,但是只有6个正的测试样本。
上表中的最后一栏就是car这类的AP。而mAP就是10个种类的AP求平均值。
从表中gt_label可以看出正例是6个,其他是负例。分别为1/6,2/6,3/6,4/6,5/6,6/6。对于每个recall值,都对应着很多种top取法,所以每个recall值对应的诸多取法中(包括等于此recall的取法)有一个最大的precision,把每种recall对应最大的precision求和取平均即AP。
比如2/6的recall,查找上表,能得到recall2/6值的种类:从第2个开始到第5个,而到上表第6个,因为对应的是正例,所以就不是recall为2/6的范围了(因为前面已经有2个正例,如果再加一个正例,recall值就是3/6了),这几个取法对应最大的precision是2/2。同理,recall 4/6的取法就是第四个正例开始(4/7)到第5个正例前(4/10)之间的范围,对应最大的pricision是4/7。
相应的Precision-Recall曲线(这条曲线是单调递减的)如下:
AP衡量的是学出来的模型在每个类别上的好坏,mAP衡量的是学出的模型在所有类别上的好坏,得到AP后mAP的计算就变得很简单了,就是取所有AP的平均值。
目标检测计算mAP
检测出来的bbox包含score和bbox,按照score降序排序,所以每添加一个样本,就代表阈值降低一点(真实情况下score降低,iou不一定降低)。这样就是可以有很多种阈值,每个阈值情况下计算一个prec和recall。
- 使用区域选择算法得到候选区域
- 对候选区域,计算每一个候选区域和标定框(groud truth)的iou
- 设定一个iou阈值,大于这个的标为正样本,小于的标为负样本,由此得到一个类似于分类时的测试集。
- 将给定的测试集(正负样本),通过分类器,算出每一个图片是正样本的score
- 设定一个score阈值,大于等于此值的视作正样本,小于的作为正样本
- 根据上一步的结果可以算出准确率和召回率
- 调节score阈值,算出召回率从0到1时的准确率,得到一条曲线计算曲线的下面积 则为AP(这是07年方法,10年的方法参考上面),这条曲线就是对每个类的单独计算出来的。通过计算所有类的AP就可以计算mAP了。
python版本的VOC计算方式
来源facebookresearch
def voc_ap(self, rec, prec, use_07_metric=True):
if use_07_metric:
ap = 0.
# 2010年以前按recall等间隔取11个不同点处的精度值做平均(0., 0.1, 0.2, …, 0.9, 1.0)
for t in np.arange(0., 1.1, 0.1):
if np.sum(rec >= t) == 0:
p = 0
else:
# 取最大值等价于2010以后先计算包络线的操作,保证precise非减
p = np.max(prec[rec >= t])
ap = ap + p / 11.
else:
# 2010年以后取所有不同的recall对应的点处的精度值做平均
# first append sentinel values at the end
mrec = np.concatenate(([0.], rec, [1.]))
mpre = np.concatenate(([0.], prec, [0.]))
# 计算包络线,从后往前取最大保证precise非减
for i in range(mpre.size - 1, 0, -1):
mpre[i - 1] = np.maximum(mpre[i - 1], mpre[i])
# 找出所有检测结果中recall不同的点
i = np.where(mrec[1:] != mrec[:-1])[0]
# and sum (\Delta recall) * prec
# 用recall的间隔对精度作加权平均
ap = np.sum((mrec[i + 1] - mrec[i]) * mpre[i + 1])
return ap
# 计算每个类别对应的AP,mAP是所有类别AP的平均值
def voc_eval(self, detpath,
classname,
ovthresh=0.5,
use_07_metric=True):
# 提取所有测试图片中当前类别所对应的所有ground_truth
class_recs = {}
npos = 0
# 遍历所有测试图片
for imagename in imagenames:
# 找出所有当前类别对应的object
R = [obj for obj in recs[imagename] if obj['name'] == classname]
# 该图片中该类别对应的所有bbox
bbox = np.array([x['bbox'] for x in R])
difficult = np.array([x['difficult'] for x in R]).astype(np.bool)
# 该图片中该类别对应的所有bbox的是否已被匹配的标志位
det = [False] * len(R)
# 累计所有图片中的该类别目标的总数,不算diffcult
npos = npos + sum(~difficult)
class_recs[imagename] = {'bbox': bbox,
'difficult': difficult,
'det': det}
# 读取相应类别的检测结果文件,每一行对应一个检测目标
if any(lines) == 1:
# 某一行对应的检测目标所属的图像名
image_ids = [x[0] for x in splitlines]
# 读取该目标对应的置信度
confidence = np.array([float(x[1]) for x in splitlines])
# 读取该目标对应的bbox
BB = np.array([[float(z) for z in x[2:]] for x in splitlines])
# 将该类别的检测结果按照置信度大小降序排列
sorted_ind = np.argsort(-confidence)
sorted_scores = np.sort(-confidence)
BB = BB[sorted_ind, :]
image_ids = [image_ids[x] for x in sorted_ind]
# 该类别检测结果的总数(所有检测出的bbox的数目)
nd = len(image_ids)
# 用于标记每个检测结果是tp还是fp
tp = np.zeros(nd)
fp = np.zeros(nd)
# 按置信度遍历每个检测结果
for d in range(nd):
# 取出该条检测结果所属图片中的所有ground truth
R = class_recs[image_ids[d]]
bb = BB[d, :].astype(float)
ovmax = -np.inf
BBGT = R['bbox'].astype(float)
# 计算与该图片中所有ground truth的最大重叠度
if BBGT.size > 0:
......
overlaps = inters / uni
ovmax = np.max(overlaps)
jmax = np.argmax(overlaps)
# 如果最大的重叠度大于一定的阈值
if ovmax > ovthresh:
# 如果最大重叠度对应的ground truth为difficult就忽略
if not R['difficult'][jmax]:
# 如果对应的最大重叠度的ground truth以前没被匹配过则匹配成功,即tp
if not R['det'][jmax]:
tp[d] = 1.
R['det'][jmax] = 1
# 若之前有置信度更高的检测结果匹配过这个ground truth,则此次检测结果为fp
else:
fp[d] = 1.
# 该图片中没有对应类别的目标ground truth或者与所有ground truth重叠度都小于阈值
else:
fp[d] = 1.
# 按置信度取不同数量检测结果时的累计fp和tp
# np.cumsum([1, 2, 3, 4]) -> [1, 3, 6, 10]
fp = np.cumsum(fp)
tp = np.cumsum(tp)
# 召回率为占所有真实目标数量的比例,非减的,注意npos本身就排除了difficult,因此npos=tp+fn
rec = tp / float(npos)
# 精度为取的所有检测结果中tp的比例
prec = tp / np.maximum(tp + fp, np.finfo(np.float64).eps)
# 计算recall-precise曲线下面积(严格来说并不是面积)
ap = self.voc_ap(rec, prec, use_07_metric)
# 如果这个类别对应的检测结果为空,那么都是-1
else:
rec = -1.
prec = -1.
ap = -1.
return rec, prec, ap
参考:
深度学习: COCO目标检测测评指标
MS COCO数据集目标检测评估
COCO: Metrics
浅谈VOC数据集的mAP的计算过程
目标检测中的mAP是什么含义
机器视觉中的平均精度(AP)
Microsoft COCO 数据集解析
voc_eval.py 解
多标签图像分类任务的评价方法——mAP
MSCOCO数据标注详解