深度学习图像处理(分类or检测)中结果的评价方法-mAP简介

多标签图像分类(Multi-label Image Classification)任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准,即mean accuracy,该任务采用的是和信息检索中类似的方法—mAP(mean Average Precision)。mAP虽然字面意思和mean accuracy看起来差不多,但是计算方法要繁琐得多。

P-R曲线的绘制

  1. 用训练好的模型得到所有测试样本的confidence score,本例中某一类有20个测试样本。(每一类的P-R曲线、AP均单独计算)
    深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第1张图片
  2. 对该类的confidence score排序,得到:
    深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第2张图片
  3. 计算top-1到top-N(N是所有测试样本个数,本文中为20)对应的precision和recall,这两个标准的定义如下:
    深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第3张图片
    直观的理解就是,第一次我们排序后第一个样本的confidence作为划分正负样本的阈值,此时,只有第一个判断为正,其他均为负样本(因为其他样本的confidence均小于第一个样本的confidence),计算该阈值情况下的recall(1/1=1)和precision(1/1=1);然后第二次将排序后第二个样本的confidence作为划分正负样本的阈值,依次类推到最后一个。显然随着阈值的降低,我们选定的样本越来也多,recall一定会越来越高,而precision整体上会呈下降趋势。把recall当成横坐标,precision当成纵坐标,即可得到常用的precision-recall曲线。这个例子的P-R曲线如下:
    深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第4张图片

AP的计算

PASCAL VOC CHALLENGE自2010年后就换了新计算方法。新的计算方法假设这N个样本中有M个正例,那么我们会得到M个recall值(1/M, 2/M, …, M/M),对于每个recall值r,我们可以计算出对应(r’ > r)的最大precision,然后对这M个precision值取平均即得到最后的AP值。计算方法如下:​
深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第5张图片
相应的Precision-Recall曲线中被用于计算AP的部分如下(每一个recall的节点都取precision的最大值连接起来):
深度学习图像处理(分类or检测)中结果的评价方法-mAP简介_第6张图片

mAP的计算

AP衡量的是学出来的模型在每个类别上的好坏,mAP衡量的是学出的模型在所有类别上的好坏,得到AP后mAP的计算就变得很简单了,就是取所有AP的平均值。

注:本文修改自原文,有增删。

你可能感兴趣的:(深度学习图像处理(分类or检测)中结果的评价方法-mAP简介)