RepPoints:Point Set Representation for Object Detection

原文链接
目前大多数的目标检测器都依赖于矩形的目标框,去表示在不同识别阶段的目标。使用bb是非常方便的,但是只能粗略的对目标进行定位,并且挖掘出来的相应的特征也是粗略的。在本文中,作者提出了代表点(RepPoints),将一系列样本点用于物体定位和识别。通过训练对gt进行定位并识别目标。RepPoints学习自动的安排自己,以限制目标的空间区域范围和表示语义上的重要局部区域。不需要anchor来采样bb,文中设计的基于RepPoints的并且anchor-free的检测器和基于anchor的一样有效。

1 Introduction

目标检测是在一张图像上定位目标并且提供他们的类别标记,作为机器视觉中最基础的任务,很多视觉应用中重要的组成部分。在目标检测中,bb将图像压缩成一个矩形区域,它们描述了通过目标检测器的各个阶段,从anchor到目标区域再到最后的检测。基于这些bb,特征被挖掘用于目标检测以及位置的精确化,bb广泛使用的原因归于预测与gt之间重叠的部分的度量以及方便了深层特征的特征的提取。

2 Related work

bb的好处:(1)歧义小(2)在深度学习之前,几乎所有的图像特征提取器都是规则的输入。RepPoint能被用于替代bb,并可以更高的效率,,其不使用anchor,因为对于目标使用中心点。
可变卷积,视觉识别的最基础的挑战是在各种几何变体中识别物体,为了有效的塑造这样的模型。
RepPoint使用了自上而下的可变卷积,主要的不同是为了更准确的几何定位,采用较为灵活的目标表示。

3可变形卷积

RepPoints:Point Set Representation for Object Detection_第1张图片RepPoints:Point Set Representation for Object Detection_第2张图片
可变形卷积的表示形式:
在这里插入图片描述
其中,x(p0)为输入特征位置p的特征,y(p0)为输出特征位置p的特征,wp为第n采样点的权值,pn为第n个点预定义的偏移量,△pn为卷积学习的第n个采样点的位置偏移量。
Deformable ROI Pooling
RepPoints:Point Set Representation for Object Detection_第3张图片
在这里插入图片描述
当给定输入特征图x,ROI Pooling会将其分为k*k个bins。nij是第k个bin的采样点的数量。首先根据ROI Pooling会得到绿色的特征图,增加一个全连接层学习offset。

4 RepPoints

RepPoints是一组样本点,通过location的位置和9个偏移量,将RepPoints转换成bb,主要的方法如下:
(1)所有的点中找到最小值和最大值,获得包括所有点的框
(2)选取所有的点的子集进行(1)的操作
(3)求出均值和方差,利用其得到bb。
RepPoints:Point Set Representation for Object Detection_第4张图片
RepPoints是通过学习目标定位损失和目标识别损失,可以自动学习极值点和语义信息。计算定位损失的步骤主要是先将其转换为pseudo box,然后通过计算pb和gt之间的差异。

RPDet

RepPoints:Point Set Representation for Object Detection_第5张图片
基于特征的每个位置作为中心点,anchor free的检测器。目标可能存在二义性的问题,FPN可以把同一个位置不同尺度的物体分开;FPN的高分辨率可以减少两个物体落在同一个位置的概率,同时FPN遇到二义性的概率较小。通过回归中心点的偏移量获得第一组RepPoint,第一组进行refine得到第二组,用于表示最终的定位。

你可能感兴趣的:(RepPoints:Point Set Representation for Object Detection)