评价标准:pascal voc, coco,目前基本都在使用coco数据集。
mAP: mean Average Precision, 即所有类别AP的平均值。下面将介绍相关参数含义。
理论知识:
TP(True Positive):与目标框(ground truth) IoU>0.5的检测框数量 (同一个Ground Truth 只计算一次)
FP(False Positive):与目标框 IoU<=0.5的检测框(或者是检测到同一个GT的多余检测框的数量)
FN(False Negative): 没有检测到的目标框的数量
Precision(查准率): TP/(TP + FP)即:所有预测正确的框,与所有预测出来的框(网络最终输出的全部预测框)的比例
Recall(召回率/查全率):TP/(TP + FN) 即:所有预测正确的框,与所有真实框(ground truth)的比例
P-R曲线:Precision-Recall 曲线,一般来说Precision和Recall一个变大,另一个就会变小,我们以Recall为横坐标,Precision为纵坐标做图如下:
AP: P,和R单独出现时均不能完整的表征网络的预测效果, 我们希望的是P和R同时为较大的值,也就是希望PR曲线与坐标轴围成的面积更大。由此得到AP的概念,即PR曲线与坐标轴围成的面积.
一个类AP计算方法:
依次选择前一个,前两个,前三个…(依次减小confidence阈值,没有达到阈值的框认为是没有检测到物体的,当作FN)去计算Precision和Recall。例如我们把confidence限定为0.89
,通过表格我们可以发现仅有两个框可以认定为TP, 无FP, 一共检测到7个框,所以剩下的五个均为FN。即Precision=2/(2+0)=1.0;Recall=2/(2+5)=0.28
画PR曲线,计算曲线下方面积:
计算面积时需要先去掉Recall重复的部分(因为要以Recall为x轴)。得到下一步的表格后,AP也可通过公式计算如下,*(第n项Recall - 第n-1项Recall)从n项起往下的最大Precision(n=1时n-1项Recall取0)
由此得到各类的AP值,取平均即可以得到mAP。
COCO较为主要的评价指标为第一项,其含义为在IoU=0.5~0.95间隔0.05, 一共10个IoU阈值下各类AP的均值,再求10个mAP的均值。
其他各项评价指标需要根据数据集和实际应用场景判断,用哪个取主要评价模型的好坏。例如当模型主要检测小物体时, A P s a m l l AP^{samll} APsamll就表示针对小面积的目标检测,含义为 a r e a < 3 2 2 area<32^{2} area<322的物体检测结果的mAP.
Average Recall
A R m a x = 10 AR^{max=10} ARmax=10 : 每张图片最多10个预测边界框时,其相应的Recall值。
Across Recall
不同目标尺度AR的值。