交并比IoU是英文intersection over union的简写,意思是检测结果的矩形框与样本标注的矩形框的交集与并集的比值。如下图:
预测值为正例,记为P(Positive)
预测值为反例,记为N(Negative)
预测值与真实值相同,记为T(True)
预测值与真实值相反,记为F(False)
TP – 预测值和真实值一样,预测值为正样本(真实值为正样本)
TN – 预测值和真实值一样,预测值为负样本(真实值为负样本)
FP – 预测值和真实值不一样,预测值为正样本(真实值为负样本)
FN – 预测值和真实值不一样,预测值为负样本(真实值为正样本)
准确率accuracy是我们最常见的评价指标,这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好,如下:
accuracy = (TP+TN)/(TP+TN+FP+FN)
上公式中的TP+TN即为所有的正确预测为正样本的数据与正确预测为负样本的数据的总和,TP+TN+FP+FN即为总样本的个数。
精度precision是从预测结果的角度来统计的,是说预测为正样本的数据中,有多少个是真正的正样本,即“找的对”的比例,如下:
precision = TP/( TP+FP)
上公式中的TP+FP即为所有的预测为正样本的数据,TP即为预测正确的正样本个数。
召回率recall和TPR(灵敏度(true positive rate))是一个概念,都是从真实的样本集来统计的,是说在总的正样本中,模型找回了多少个正样本,即“找的全”的比例,如下:
recall/TPR = TP/(TP+FN)
FPR(false positive rate),它是指实际负例中,错误的判断为正例的比例,这个值往往越小越好,如下:
FPR = FP/(FP+TN)
(Average-Precision,AP)
P-R图直观地显示出学习器在样本总体上的查全率、查准率.总体趋势,精度越高,召回越低,进行比较
优缺点
PR曲线反映了分类器对正例的识别准确程度和对正例的覆盖能力之间的权衡。
PR曲线有一个缺点就是会受到正负样本比例的影响。比如当负样本增加10倍后,在racall不变的情况下,必然召回了更多的负样本,所以精度就会大幅下降,所以PR曲线对正负样本分布比较敏感。对于不同正负样本比例的测试集,PR曲线的变化就会非常大。
F1分数(F1-score)是分类问题的一个衡量指标。F1分数认为召回率和精度同等重要, 一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。计算公式如下:
F1 = 2TP/(2TP+FP+FN)
更一般地,我们可以定义Fβ(precision和recall权重可调的F1 score):
平均准确率AP
AP即Average Precision,称为平均准确率,是对不同召回率点上的准确率进行平均,在PR曲线图上表现为PR曲线下面的面积。AP的值越大,则说明模型的平均准确率越高。
mAP是英文mean average precision的缩写AP,AP就是PR曲线下面的面积(如下图),是指不同召回率下的精度的平均值。
然而,在目标检测中,一个模型通常会检测很多种物体,那么每一类都能绘制一个PR曲线,进而计算出一个AP值。那么多个类别的AP值的平均就是mAP.
mAP衡量的是学出的模型在所有类别上的好坏,是目标检测中一个最为重要的指标,一般看论文或者评估一个目标检测模型,都会看这个值,这个值是在0-1直接,越大越好。
一般来说mAP针对整个数据集而言的,AP针对数据集中某一个类别而言的,而percision和recall针对单张图片某一类别的。
[email protected]指的是IOU的值取50%,AP70同理
[email protected]:.95指的是IOU的值从50%取到95%,步长为5%,然后算在在这些IOU下的AP的均值
非极大值抑制虽然一般不作评价指标,但是也是目标检测中一个很重要的步骤。
计算步骤:
1). NMS计算出每一个bounding box的面积,然后根据置信度进行排序,把置信度最大的bounding box作为队列中首个要比较的对象;
2). 计算其余bounding box与当前最大score的IoU,去除IoU大于设定的阈值的bounding box,保留小的IoU预测框;
3). 然后重复上面的过程,直至候选bounding box为空。
多个预测目标
当存在多目标预测时,如下图,先选取置信度最大的候选框B1,然后根据IoU阈值来去除B1候选框周围的框。然后再选取置信度第二大的候选框B2,再根据IoU阈值去掉B2候选框周围的框。