ExtremeNet

titile Bottom-up Object Detection by Grouping Extreme and Center Points
url https://arxiv.org/pdf/1901.08043.pdf
动机 提出Anchor-Free(bottom-up)目标检测方法;提出新的关键点分组方法;结合DEXTR(Deep Extreme Cut)得到一种两阶段的实例分割方法。
内容 Top-down方法缺点:
1、大多数目标不是axis-aligned boxes,boxes内有很多背景像素。
2、列举大量候选框,没有理解图像的语义信息,计算成本大。
3、bounding box不等同于object,缺少目标pose、shape等细节信息。

本文检测方法:
1、通过heatmaps检测四个极值点和一个中心点。
2、4个极值点呈几何对齐,组成的box中心在预测的中心点热图中有较大的响应时保留box。时间复杂度:O(n4)
与CornerNet的区别
1、关键点定义:CornerNet角点位于目标,ExtremeNet极值点位于目标上,可以反映物体的表观特征。
2、关键点几何分组:ExtremeNet基于目标外观分组,不需要学习group feature。
Preliminaries:
Extreme and center points:标注四个极值点,7.2 sec,四个极值点得到中心点。
Keypoint detection:使用一个全卷积的编解码网络预测多通道热图,使用L2损失函数或者logistic损失函数训练网络。
CornerNet:
Deep Extreme Cut:基于极值点的图像分割算法,以四个极值点和由极值点所包围的图像区域作为输入。ExtremeNet输出可以作为DEXTR的输入。

ExtremeNet for Object detection
Backbone:HourglassNet,网络输出为5×C(C为类别数)个heatmaps和4×2个偏移图(4个极值点,2个方向),损失函数和偏移预测和CornerNet相同。偏移预测与类别无关,极值点与类别相关。中心点通过四个极值点几何计算得到,则中心点无偏移预测。
Center Grouping:
极值点位于目标不同侧,embedding方法不能利用充足的全局信息,提出了新的极值点分组方法。
峰值预测ExtrectPeak:一个像素,像素值高于阈值τp(0.1),且在3*3的邻域内为最大值。
通过ExtrectPeak得到4个极值点,从而计算出几何中心,如果中心点在heatmap响应大于阈值τc(0.1) ,则认为该极值点有效。
Ghost box suppression
center grouping会产生一个错误的边界框且置信度很高:三个物体尺寸相同,在空间上呈线性排列。则中间物体的预测边界框会有两个,一种是选择正确的小框,另一种预测一个更大的框,里面有它相邻物体的极值点。
解决方法:基于soft-NMS,某个边界框所包围框的置信度之和超过其本身的3倍,则将其置信度除以2。
Edge aggregation
如果以物体的水平或垂直边缘形成极值点时,则沿边(如汽车的水平顶部与边界框重合的部分)的任意一点均可认为是极值点。导致网络对物体对齐的边缘产生弱响应,非单一强响应,会有两点不足:
(1)弱响应置信度可能低于阈值τp ,出现极值点漏检。
(2)即使检测到极值点,置信度低于具有强响应的略微旋转的物体。
解决方法:edge aggregation,对每个取局部最大值得到的极值点,若是左边和右边的极值点,那么选择竖直方向进行聚合;若是顶部、底部的极值点,选择从水平方向进行分数聚合。
聚合方法:沿聚合方向,聚合单调递减的score,在达到局部最小值的时候停止聚合。
Extreme Instance Segmentation
基于极值点包含的目标信息比边界框丰富。
生成octagon mask的方法:每个极值点,沿相应边的两个方向延伸到整个边缘长度的1/4,遇到角时则停止。将4部分连接起来从而形成八边形(一般情况下为4条水平或垂直的边、4条倾斜的边,有时会少于8条边)。
实验 Training details:
1、基于CornerNet进行实验,设置相同。

Testing details:
最多40个极值点from ExtrectPeak。
对比实验中multi-scale设置为 (0.5, 0.75, 1, 1.25, 1.5)。
时间:Testing on one image takes 322ms (3.1FPS), with 168ms on network forwarding, 130ms on decoding and rest time on image pre- and post-processing (NMS)。

Ablation studies:
Center Grouping vs. Associative Embedding
使用a four-channel associative embedding feature map代替center map, 使用Hinge Loss。结果下降2.1% AP。
associative embedding对于小目标有效,因为the entire object easily fits into the effective receptive field of a keypoint,但是对中大目标较差。
extreme points经常出现在目标重叠相交处。会混淆identity feature,但是geometric grouping方法仅依赖appearance可以解决这个问题。
Edge aggregation
提高0.7AP,如果去掉decode速度可达到76ms,4.1 FPS。
Ghost box suppression
提高0.3AP,学习一个NMS可能结果更好。
Error Analysis
1、gt替换center heatmap,没有很多提高,说明center heatmap训练较好。
2、gt替换extreme point heatmap提高16.3% AP,同时提高center heatmap和extreme point heatmap会有更多提升,说明本文center grouping方法很严格,得到高的performance需要同时提高center heatmap和extreme point heatmap
3、gt替换offset后其余的部分为ghost box产生的误差。
State-of-the-art comparisons
较大目标,本文center response map不够精确,几个像素的移动可能造成detection and a false-negative之间的差异。本文使用一半gpu训练模型。
Instance Segmentation
思考

你可能感兴趣的:(ExtremeNet)