论文笔记:SaccadeNet: A Fast and Accurate Object Detector

作者称,人眼通过扫描informative parts来理解目标定位(也是很常见的说法了)。这样的眼睛快速扫描称为Saccade。以"快”为优势,超越了YOLO和RetinaNet。

由于abstract里直接提到了创新点四个模块the Center Attentive Module, the Corner Attentive Module, the Attention Transitive Module, and the
Aggregation Attentive Module,也说到了saccade,因此直接跳过motivation看method。

methods

整体流程如下:
论文笔记:SaccadeNet: A Fast and Accurate Object Detector_第1张图片
作者称相比于其他点检测,SaccadeNet解决了基于边缘检测中缺乏整体认知的能力的问题,和基于中心点检测中缺少局部细节的问题。
Center Attentive Module
顾名思义,中心点检测。GT采用Gaussian heatmap而非标准的0,1。在目标点附近的位置拥有较低的惩罚,用高斯权重衰减同时保证半径区域内所有非0点可与GT box生成至少大于IOU阈值为t的bbox(这里完全照搬了Centernet的做法)。损失函数采用focal loss的变体:
论文笔记:SaccadeNet: A Fast and Accurate Object Detector_第2张图片
Attention Transitive Module
该模块预测角点。输出维度是 w f ∗ h f ∗ 2 w_{f}*h_{f}*2 wfhf2,2代表特征图每个cell出宽和高,角点由计算得出。

Aggregation Attentive Module
用来生成refined location。前两个模块的输出可得到中心点和四个角点的位置。本模块将这些feature通过双线性插值的方式从主干网络中采样下来作为输入,输出宽高的偏移以获得refined features。

Corner Attentive Module
只在训练的时候使用。以feature和 4-channel heatmap(4角点)作为输入,agnostic heatmaps为监督,以加强主干网络获得有鉴别力的角点features。

说实话看到这里,感觉作者介绍自己方法是说得云里雾里,太多东西根本就没提到。

在Implementation中作者提及所有的head module都是由2层的卷积操作组成:第一层为256个3 * 3卷积附带ReLU,第二层为不带激活函数的1 * 1。Center-Attn包含一个head module,输出依赖于类别数量。Corner-Attn包含一个head module,输出是代表4个角点的4维热力图。 Attention Transitive包含两个head module,分别输出中心点在两个方向的offset和宽高。Aggregation-Attn包含1个head module,输出2维度表示宽高的offset。

experiment

以速度为主要的优势,相比之前的方法还是很明显的:
论文笔记:SaccadeNet: A Fast and Accurate Object Detector_第3张图片
每个模块的消融实验:
论文笔记:SaccadeNet: A Fast and Accurate Object Detector_第4张图片
不同的角点采集方法中,还是真正意义上的角点效果最好:
论文笔记:SaccadeNet: A Fast and Accurate Object Detector_第5张图片

总结

从方法还有最后实验可以看出,本文整体是用的centernet(objects as points)做的baseline。相比于centernet,强化了对角点的学习,因此才有了作者之前所谓的与Edge-keypoint-based detectors和Center-keypoint-based detectors相比的优势。具体细节说的不是很清楚,公众号推过来的文章更像是精选人翻,等结合后续他人的理解吧。

你可能感兴趣的:(论文笔记:SaccadeNet: A Fast and Accurate Object Detector)