ExtremeNet

titile	Bottom-up Object Detection by Grouping Extreme and Center Points
url	https://arxiv.org/pdf/1901.08043.pdf
动机	提出Anchor-Free(bottom-up)目标检测方法；提出新的关键点分组方法；结合DEXTR(Deep Extreme Cut)得到一种两阶段的实例分割方法。
内容	Top-down方法缺点： 1、大多数目标不是axis-aligned boxes，boxes内有很多背景像素。 2、列举大量候选框，没有理解图像的语义信息，计算成本大。 3、bounding box不等同于object，缺少目标pose、shape等细节信息。本文检测方法： 1、通过heatmaps检测四个极值点和一个中心点。 2、4个极值点呈几何对齐，组成的box中心在预测的中心点热图中有较大的响应时保留box。时间复杂度：O(n⁴) 与CornerNet的区别 1、关键点定义：CornerNet角点位于目标，ExtremeNet极值点位于目标上，可以反映物体的表观特征。 2、关键点几何分组：ExtremeNet基于目标外观分组，不需要学习group feature。 Preliminaries： Extreme and center points：标注四个极值点，7.2 sec，四个极值点得到中心点。 Keypoint detection：使用一个全卷积的编解码网络预测多通道热图，使用L2损失函数或者logistic损失函数训练网络。 CornerNet： Deep Extreme Cut：基于极值点的图像分割算法，以四个极值点和由极值点所包围的图像区域作为输入。ExtremeNet输出可以作为DEXTR的输入。 ExtremeNet for Object detection Backbone：HourglassNet，网络输出为5×C(C为类别数)个heatmaps和4×2个偏移图(4个极值点，2个方向)，损失函数和偏移预测和CornerNet相同。偏移预测与类别无关，极值点与类别相关。中心点通过四个极值点几何计算得到，则中心点无偏移预测。 Center Grouping：极值点位于目标不同侧，embedding方法不能利用充足的全局信息，提出了新的极值点分组方法。峰值预测ExtrectPeak：一个像素，像素值高于阈值τp(0.1)，且在33的邻域内为最大值。通过ExtrectPeak得到4个极值点，从而计算出几何中心，如果中心点在heatmap响应大于阈值τc(0.1) ，则认为该极值点有效。 Ghost box suppression* center grouping会产生一个错误的边界框且置信度很高：三个物体尺寸相同，在空间上呈线性排列。则中间物体的预测边界框会有两个，一种是选择正确的小框，另一种预测一个更大的框，里面有它相邻物体的极值点。解决方法：基于soft-NMS，某个边界框所包围框的置信度之和超过其本身的3倍，则将其置信度除以2。 Edge aggregation 如果以物体的水平或垂直边缘形成极值点时，则沿边（如汽车的水平顶部与边界框重合的部分）的任意一点均可认为是极值点。导致网络对物体对齐的边缘产生弱响应，非单一强响应，会有两点不足：（1）弱响应置信度可能低于阈值τp ，出现极值点漏检。（2）即使检测到极值点，置信度低于具有强响应的略微旋转的物体。解决方法：edge aggregation，对每个取局部最大值得到的极值点，若是左边和右边的极值点，那么选择竖直方向进行聚合；若是顶部、底部的极值点，选择从水平方向进行分数聚合。聚合方法：沿聚合方向，聚合单调递减的score，在达到局部最小值的时候停止聚合。 Extreme Instance Segmentation 基于极值点包含的目标信息比边界框丰富。生成octagon mask的方法：每个极值点，沿相应边的两个方向延伸到整个边缘长度的1/4，遇到角时则停止。将4部分连接起来从而形成八边形（一般情况下为4条水平或垂直的边、4条倾斜的边，有时会少于8条边）。
实验	Training details： 1、基于CornerNet进行实验，设置相同。 Testing details：最多40个极值点from ExtrectPeak。对比实验中multi-scale设置为 (0.5, 0.75, 1, 1.25, 1.5)。时间：Testing on one image takes 322ms (3.1FPS), with 168ms on network forwarding, 130ms on decoding and rest time on image pre- and post-processing (NMS)。 Ablation studies： Center Grouping vs. Associative Embedding 使用a four-channel associative embedding feature map代替center map，使用Hinge Loss。结果下降2.1% AP。 associative embedding对于小目标有效，因为the entire object easily fits into the effective receptive field of a keypoint，但是对中大目标较差。 extreme points经常出现在目标重叠相交处。会混淆identity feature，但是geometric grouping方法仅依赖appearance可以解决这个问题。 Edge aggregation 提高0.7AP，如果去掉decode速度可达到76ms，4.1 FPS。 Ghost box suppression 提高0.3AP，学习一个NMS可能结果更好。 Error Analysis 1、gt替换center heatmap，没有很多提高，说明center heatmap训练较好。 2、gt替换extreme point heatmap提高16.3% AP，同时提高center heatmap和extreme point heatmap会有更多提升，说明本文center grouping方法很严格，得到高的performance需要同时提高center heatmap和extreme point heatmap 3、gt替换offset后其余的部分为ghost box产生的误差。 State-of-the-art comparisons 较大目标，本文center response map不够精确，几个像素的移动可能造成detection and a false-negative之间的差异。本文使用一半gpu训练模型。 Instance Segmentation
思考

ExtremeNet

你可能感兴趣的:(ExtremeNet)