NMS和IOU代码解读(可以直接使用)

NMS和IOU是目标检测常用技术。在anchor-based的检测任务中,训练时需要IOU,测试时需要NMS,而NMS内部就要有IOU。

本文先分析IOU的原理,公式,以及代码实验,最后在讲解NMS的代码。

IOU(detection)

现在有两个框A和B。A=【ax1, ay1, ax2, ay2] 】,B=【bx1, by1, bx2, by2】。

接下来想统计A和B的交集面积, A自己的面积和B自己的面积。 三个待求值里面最关键的就是怎么求交集面积。
假设两种情况。 A和B是相交的,存在交集。这个时候怎么求交集框的左上角坐标和右下角坐标呢?
NMS和IOU代码解读(可以直接使用)_第1张图片

我们发现,当A和B有交集的时候, 交集框(红色)的左上角是max(A的左上角坐标,B的左上角坐标),右下角坐标是min(A的右下角坐标,B的右下角坐标)
那么:
h i n t e r = m i n ( a y 2 , b y 2 ) − m a x ( a y 1 , b y 1 ) h_{inter} = min(ay2,by2) - max(ay1, by1) hinter=min(ay2,by2)max(ay1,by1)
w i n t e r = m i n ( a x 2 , b x 2 ) − m a x ( a x 1 , b x 1 ) w_{inter} = min(ax2, bx2) - max(ax1, bx1) winter=min(ax2,bx2)max(ax1,bx1)
i n t e r = h i n t e r ∗ w i n t e r inter = h_{inter} * w_{inter} inter=hinterwinter
至于接下来如何求IOU就不用多说了

那么当A和B没有交集的时候,大家注意一下, h和w的值有什么特点?
没错,小于0。如果没有交集,被减数一定小于减数。所以为了鲁棒性,我们最终的inter是这样计算的

h i n t e r = m a x ( 0 , m i n ( a y 2 , b y 2 ) − m a x ( a y 1 , b y 1 ) ) h_{inter} =max(0, min(ay2,by2) - max(ay1, by1)) hinter=max(0,min(ay2,by2)max(ay1,by1))
w i n t e r = m a x ( 0 , m i n ( a x 2 , b x 2 ) − m a x ( a x 1 , b x 1 ) ) w_{inter} = max(0, min(ax2, bx2) - max(ax1, bx1)) winter=max(0,min(ax2,bx2)max(ax1,bx1))
这样当A和B没有交集,inter的值就是0。分子为0,则IOU为0。
python代码

def IOU1(A,B):
    #左上右下坐标(x1,y1,x2,y2)
    w=max(0,min(A[2],B[2])-max(A[0],B[0]))
    h=max(0,min(A[3],B[3])-max(A[1],B[1]))
    areaA=(A[2]-A[0]+1)*(A[3]-A[1]+1)
    areaB=(B[2]-B[0]+1)*(B[3]-B[1]+1)
    inter=w*h
    union=areaA+areaB-inter
    return inter/union

NMS

NMS是迭代求解的过程,有三个输入。输入是一组检测得到的框,其shape为Nx4。即N个框,每个框4个x,y坐标值。还需要输入一个IOU阈值,凡是某个框和其他框的IOU值大于这个阈值,那其他框就被移除了(抑制),只保留IOU小于阈值的(被认为是不同目标,因为不同目标重叠比例不大,IOU自然不大)。最后还要输入一组score,描述每个框对应的分类分数。
简单描述一下其过程,首先对分数排序,挑选出携带最大分数的框,第一轮迭代中,把和该框IOU大于阈值的框都移除掉。然后选择第二大分数的框(注意这里第二大分数是在移除了一部分之后在排序得到的)。依次迭代,直到已经没有框可以选择了(要么留下,要么被移除)。

def nms(dets, thresh):
    """Pure Python NMS baseline."""
    #x1、y1、x2、y2、以及score赋值
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4] # 第四列是类别分数
    areas = (x2 - x1 + 1) * (y2 - y1 + 1) # 求每个框的面积
    order = scores.argsort()[::-1] # 从大到小排序 求对应的index

    keep = [] # 保留下的index
    while order.size > 0:#还有数据
        i = order[0]  # 目前分数最大的框的index
        keep.append(i)
        #计算当前概率最大矩形框与其他矩形框的相交框的坐标 左上角用最大比较,右下角用最小比较
        xx1 = np.maximum(x1[i], x1[order[1:]]) # maxium 会广播x1[i]的shape
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])

        #计算相交框的面积
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        #计算重叠度IOU:重叠面积/(面积1+面积2-重叠面积)
        IOU = inter / (areas[i] + areas[order[1:]] - inter)
        #找到重叠度不高于阈值的矩形框索引
        left_index = np.where(IOU <= thresh)[0]
        #将order序列更新,由于前面得到的矩形框索引要比矩形框在原order序列中的索引小1,所以要把这个1加回来
        order = order[left_index + 1]
    return dets[order]

你可能感兴趣的:(深度学习)