论文阅读: DetNet

Introduction

旷厂的Li Zeming大神注意到了现有Detection Network的两大通病:

  1. 寄生于原为class task而设计的network,牵强地附加上其他辅助结构(SPP layer/RoI Pooling/RoI Align/Position-sensitive score map)来实现Detection;
  2. 下采样能带来大感受野,从而提升class任务精度;但又会损失空间信息,影响detection精度。二者难以协调。

为此,Li Zeming大神专门设计了Detection专属的DetNet Backbone。结构如下:
论文阅读: DetNet_第1张图片

并设计了专属的bottleneck:
论文阅读: DetNet_第2张图片

需要注意的是,DetNet本身只是一个backbone,和FPN一样,只是为广大two-stage detector服务的RP供应商。因此它是无法独立存在来完成检测任务的。

Innovation

最大的创新点,其实就是将原本的32X的下采样,用两个16X的卷积来替换。这样既能通过叠加卷积实现感受野的扩张,也避免了因为下采样所导致的位置信息的丢失:
论文阅读: DetNet_第3张图片

其实呢,个人感觉这不是什么新东西。YOLO早在16年就有类似的操作了:
论文阅读: DetNet_第4张图片

另外是层组件上的改进,设计了一套(A+B)bottleneck组合:
论文阅读: DetNet_第5张图片

感觉就是Inception的变种。

Result

刷到了新的state-of-the-art:
论文阅读: DetNet_第6张图片

该backbone在分割任务上也同样出众,说明general性能好:
论文阅读: DetNet_第7张图片

po出效果图:

Thinking

  • 这篇文章的创新点和FAIR的 Focal Loss 类似,都是一点点的小改进,但却是涨点的大杀器。

  • 不过我总觉得backbone极似YOLOv1的网络结构。one-stage系的YOLOv1是几个下采样后缩小32X,之后几个连续的同size卷积。DetNet则是下采样到16X就停止了,然后几个连续的同size卷积号称可以在扩大感受野的同时不损失空间信息。
    或许是YOLOv1无心插柳,却被DetNet注意到了,并深入挖掘了背后的理论知识吧。

  • 这是第一次专门针对Detection所设计的Network。估计也只有Li Zeming大神有底气用这么霸气的名字了吧。

  • 另外,或许Li Zeming大神可以学习一下He Kaiming大神的写作,对该创新点进行更加高大上的包装。

  • 看论文格式,应该是打算投ECCV。

  • 最后,期待Li Zeming大神的源码发布。


[1] DetNet: A Backbone network for Object Detection

你可能感兴趣的:(论文算法)