目标检测中的评价指标知识点总结:IOU交叉重叠单元、map/AP/TP/FP/NP的归纳

在目标检测任务中,我们时常会让模型一次性生成大量的候选框(candidate bound),然后再根据每一个框的置信度对框进行排序,进而依次计算框与框之间的IoU,以非极大值抑制的方式,来判断到底哪一个是我们真正要找的物体,哪几个又该删除。例如在做人脸检测时,模型输出的可能是左图,而最终我们得到的是右图。
目标检测中的评价指标知识点总结:IOU交叉重叠单元、map/AP/TP/FP/NP的归纳_第1张图片

代码实现

import numpy as np
# box:[上, 左, 下, 右]
box1 = [0,0,8,6]
box2 = [2,3,10,9]

def IoU(box1, box2):
    # 计算中间矩形的宽高
    in_h = min(box1[2], box2[2]) - max(box1[0], box2[0])
    in_w = min(box1[3], box2[3]) - max(box1[1], box2[1])

    # 计算交集、并集面积
    inter = 0 if in_h < 0 or in_w < 0 else in_h * in_w
    union = (box1[2] - box1[0]) * (box1[3] - box1[1]) + \
            (box2[2] - box2[0]) * (box2[3] - box2[1]) - inter
    # 计算IoU
    iou = inter / union
    return iou
IoU(box1, box2)

其他的评价指标:分类的精度如何。一般可以用准确度(Accuracy),精度(Precision),召回率(Recall Rate), PR 曲线,AP,mAP等
定位的精度如何。比如 IoU
运行的速度如何。比如 fps,一秒处理几张图。
严格说某些场合也会很在意模型的大小,这也是一个研究方向,比如 squeeze net, mobile net, shuffle net 等。所以除了上面三个维度,模型的大小也可以是一个评价维度。
AP(Average Precision) mAP(mean AP全局所有种类加权平均的平均准确率) IoU(Intersection over Union)
在计算mAP之前,需要了解下面四个衡量指标:

(1)True Positive (TP):表示一个正确的检测结果。在标注边界框附近存在预测边界框,并且预测边界框与标注边界框之间的IoU大于交并比阈值。

(2)False Positive (FP):表示一个错误的检测结果。在标注边界框附近存在预测边界框,但是预测边界框与标注边界框之间的IoU小于交并比阈值。

(3)False Negative(FN):表示在一个标注边界框附近,检测网络并没有输出预测值。换句话说,就是漏检了。

(4)True Negative(TN):计算mAP的时候,这个指标并不需要,因此就不再详细介绍。

1.3 查准率(Precision)和查全率(Recall)
查准率表示模型成功预测正样本的能力。它的计算公式如下:
Precision=TP/(TP+FP)
查全率表示模型能够预测出正样本的能力。它的计算公式如下:
RECALL=TP/(TP+FN)

查准率和查全率是一对矛盾的度量,一般而言,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。我们从直观理解确实如此:我们如果希望好瓜尽可能多地选出来,则可以通过增加选瓜的数量来实现,如果将所有瓜都选上了,那么所有好瓜也必然被选上,但是这样查准率就会越低;若希望选出的瓜中好瓜的比例尽可能高,则只选最有把握的瓜,但这样难免会漏掉不少好瓜,导致查全率较低。通常只有在一些简单任务中,才可能使查全率和查准率都很高。所以为了更全面的衡量模型的性能提出了 AP。平均精确率(Average Precision).
平均准确率(AP)是衡量目标检测器的一个性能指标,它可以根据P-R曲线与坐标轴所围成的面积计算得到。其中,P-R曲线表示在以查全率为横坐标,查准率为纵坐标的坐标系下,所绘制的曲线,具体绘制过程下面会详细介绍。其中计算AP值有两种方法,但是这边我只详细介绍其中一种,因为这个方法更为常用。该方法称为Interpolating all points(另一个方法称为11-point interpolation),该方法求的AP值就是在查准率-查全率坐标图中曲线与坐标轴的面积。

重要的来了:mAP的计算过程就是求每一类物体的AP值,然后求和取平均

classes <- 所有类别标签的集合
rests <- 每一类precision和recall以及AP的值的集合
predicts <- 模型预测的所有结果
ground_truth <- 标注的所有结果
# 对每一类物体求AP
for cls in classes do:
    preds <- precits中所有类别为cls的边界框信息
    gts <- ground_truth中所有类别为cls的边界框信息
    TP <- 长度为len(preds)的数组,并初始化为0
    FP <- 长度为len(preds)的数组,并初始化为0
    occupied <- 记录每个图像中n个gt是否被pred负责预测的词典
    # 确定每一个pred是TP还是FP
    for i, pred in enumerate(preds) do:
        # 找到该pred与gts哪个边界框的IOU最大,将让该pred负责预测该gt,并保存该gt的索引
        for j, gt in enumerate(gts) do:
            jou = IOU(pred, gt)
            jmax = j
        # 当iou不小于阈值并且该边界框预测的gt没有被预测,将其设置为TP
        if iou >= threshold and (occupied[cls][imax] == 0):
            TP[i] = 1
        else
            FP[i] = 1
    # 根据TP和FP求acc_TP和acc_FP
    acc_TP = np.cumsum(TP)
    acc_FP = np.cumsum(FP)
    rec = acc_TP / len(gts)
    prec = acc_TP / (acc_TP + acc_FP)
    # 根据rec和prec求ap
    ap <- CalculateAveragePrecision(rec, prec)
    # 将每一类的ap保存在rests中
    rests.append(ap)


当采用VOC数据集格式时:


```bash
def GetPascalVOCMetrics(boundingboxes,
                        IOUThreshold=0.5,
                        method=MethodAveragePrecision.EveryPointInterpolation):
    # 输出结果初始化为一个列表
    ret = [] 
    # List with all ground truths (Ex: [imageName,class,confidence=1, (bb coordinates XYX2Y2)])
    # 存放标记的所有边界框(与下文的detections一起使用,用于求每个预测结果是TP还是FP)
    groundTruths = []
    # List with all detections (Ex: [imageName,class,confidence,(bb coordinates XYX2Y2)])
    detections = []
    # 存放该数据集中所有的类别(需要求每个类别的AP值)
    classes = []
    # 这段代码涉及到一些更加细节的问题,你可以将其视为从boundingboxes中获取gt和pred的边界框信息
    # detections = [['00001', 'person', 0.88, (5.0, 67.0, 36.0, 115.0)],[],....]
    # gt的值也类似,只不过第三列数据是0或者1,而不是小数
    for bb in boundingboxes.getBoundingBoxes():
        # [imageName, class, confidence, (bb coordinates XYX2Y2)]
        if bb.getBBType() == BBType.GroundTruth:
            groundTruths.append([
                bb.getImageName(),
                bb.getClassId(), 1,
                bb.getAbsoluteBoundingBox(BBFormat.XYX2Y2)
            ])
        else:
            detections.append([
                bb.getImageName(),
                bb.getClassId(),
                bb.getConfidence(),
                bb.getAbsoluteBoundingBox(BBFormat.XYX2Y2)
            ])
        # get class
        if bb.getClassId() not in classes:
            classes.append(bb.getClassId())
    # 对类别进行排序
    classes = sorted(classes)
    ...
    return ret
###以下是补充对TP/FP的判断:正确的检测结果和错误的判断
# 精确到该类在哪个图像中
for d in range(len(dects)):
    # print('dect %s => %s' % (dects[d][0], dects[d][3],))
    # Find ground truth image
    # 将所有属于文件detect[d][0]图像的gt都保存下来
    gt = [gt for gt in gts if gt[0] == dects[d][0]]
    iouMax = sys.float_info.min
    # 选择gt与当前预测值的边界框最大的交并比
    for j in range(len(gt)):
        # print('Ground truth gt => %s' % (gt[j][3],))
        iou = Evaluator.iou(dects[d][3], gt[j][3])
        if iou > iouMax:
            iouMax = iou
            jmax = j
    # Assign detection as true positive/don't care/false positive
    # 如果阈值
    if iouMax >= IOUThreshold:
        # 表示当前jmax个物体
        if det[dects[d][0]][jmax] == 0:
            TP[d] = 1  # count as true positive
            # 表示这个gt已经有相应的prediction进行预测了
            det[dects[d][0]][jmax] = 1  # flag as already 'seen'
            # print("TP")
        else:
            FP[d] = 1  # count as false positive
            # print("FP")
    # - A detected "cat" is overlaped with a GT "cat" with IOU >= IOUThreshold.
    # 假阴性
    else:
        FP[d] = 1  # count as false positive
        # print("FP")

你可能感兴趣的:(PYTHON,目标检测,深度学习,人工智能)