CenterNet: Keypoint Triplets for Object Detection阅读笔记

介绍

  • ancher-based目标检测方法预先定义固定大小的框,然后在GT box的帮助下将这些框回归到正确的位置。但预定义的框通常与GT box不对齐,这妨碍了框回归任务。
  • two-stage: 分为两步:提取RoIs,然后对RoIs进行分类和回归。One-stage方法去除提取RoI的过程,直接对候选anchor boxes进行分类和 回归。
  • CornerNet通过一对角的关键点来表示每个物体,其性能受到指代物体全局信息的能力相对较弱的限制。如图1所示,它经常产生一些不正确的边界框。
  • center pooling:在分支中用于预测关键点。通过在特征图上获取中心关键点的水平和垂直方向上的最大总响应来预测中心关键点。
  • cascade pooling: 通过在特征图上获取物体的边界和内部方向的最大总响应来预测corner。
  • 提出CenterNet,将每个物体检测为三联体,而不是关键点。设计了两个定制的模块,名为级联角集合和中心集合,它们分别扮演着丰富左上角和右下角收集的信息和在中心区域提供更多的可识别信息的角色。

CenterNet: Keypoint Triplets for Object Detection阅读笔记_第1张图片

方法

CenterNet: Keypoint Triplets for Object Detection阅读笔记_第2张图片
以CornerNet作为baseline,通过使用中心池和级联角池,将物体内部的视觉模式进一步引入关键点检测过程。如图2所示:用一个中心关键点和一对角来表示每个物体。具体来说,在CornerNet的基础上嵌入了中心关键点的热图,并预测中心关键点的偏移量。使用CornerNet中的方法生成前k个bounding boxes。为了有效地过滤不正确的边界框,利用检测到的中心关键点:

  1. 根据分数选择前k个中心关键点;
  2. 使用相应的偏移量将这些中心关键点重新映射到输入图像上;
  3. 为每个bounding box定义一个中心区域,并检测中心区域是否包含中心关键点;
  4. 如果在中心区域检测到一个中心关键点,我们将保留边界框。bounding box的得分将被三个点的平均得分所取代,即左上角、右下角和中心关键点。如果在其中心区域没有检测到中心关键点,则边界框将被移除。

较小的中心区域会导致小bounding box的低召回率,而较大的中心区域会导致大bounding box的低精度?(没想明白,是bounding box比中心区域还小,导致了更小的IOU???)。因此提出了一个标度感知的中心区域,以适应bounding box的大小。标度感知中心区域对于一个小的边界盒来说往往会产生一个相对较大的中心区域,而对于一个大的边界盒来说则是一个相对较小的中心区域。
CenterNet: Keypoint Triplets for Object Detection阅读笔记_第3张图片
公式1:中心区域的左上角和右下角坐标计算方式。

CenterNet: Keypoint Triplets for Object Detection阅读笔记_第4张图片
CenterNet: Keypoint Triplets for Object Detection阅读笔记_第5张图片
图4:图(a)在水平和垂直方向上去max,和图©在内部方向上去max的那部分怎么不一样???(看得我这个新手一脸懵)
Center pooling: 骨干网输出一个特征图,为了确定特征图中的一个像素是否是中心关键点,需要找到其水平和垂直方向上的最大值,并将它们相加。
Cascade corner pooling:图4©展示了级联角集合的原理。它首先沿着边界寻找一个边界最大值,然后沿着边界最大值2的位置向内寻找一个内部最大值,最后,将两个最大值相加。通过这样做,角落既可以获得边界信息,也可以获得物体的视觉模式

CenterNet: Keypoint Triplets for Object Detection阅读笔记_第6张图片
图5(a)显示了中心池模块的结构。为了在一个方向上取一个最大值,例如水平方向,只需要将左池化和右池化串联起来。图5(b)显示了一个级联顶角集合模块的结构。与CornerNet中的顶角池化相比,在顶角池化之前增加了一个左角池化。

实验

SOTA
CenterNet: Keypoint Triplets for Object Detection阅读笔记_第7张图片
CenterNet: Keypoint Triplets for Object Detection阅读笔记_第8张图片

你可能感兴趣的:(目标检测,计算机视觉,人工智能)