DetNet(A Backbone network for Object)

arxiv:https://arxiv.org/abs/1804.06215

在目标检测任务过程中,大多数backbone网络都是基于ImageNet上的分类任务进行开发的,作者认为这样的网络往往会提取较高层的语义特征,这样适合分类,但不利于定位(特征金字塔(FPN)和扩张卷积(dilation)等技巧在一定程度上补偿了这类问题)。因此,文中提出了一种更适合目标检测的backbone,相较于ResNet101网络,参数量更少,效果却更强大。

文中认为传统backbone网络主要存在如下三个问题:
  1. stage的数量:分类网络中,如ResNet有5个stages,特征图会缩小32倍,但是在对大目标进行检测时,FPN会加入P6层, RetinaNet会添加P6,P7,但是这几层是没有ImageNet预训练的。
  2. 大物体可见能力较弱:特征图在缩小32倍后,边界信息较为模糊,大物体难以回归到很准确的边界信息。
  3. 小物体容易丢失:较低的采样层可能包含足够的小物体信息,但低阶的语义的信息不足以用于区分类别,而在较深的特征中小物体可能丢失,即使通过反卷积得到较大特征图,目标信息可能已经丢失。
挑战:

1.保留大的空间信息将会带来更多参数和计算量。
2.减少下采样将会减小感受野,不利于分类(classification)或分割(semantic segmentation)等任务。

针对上述问题:

网络设计:

1.保留ResNet的前四个stages,如图Fig.1。stage 5保持和stage 4相同的大小,并且增加P6层,P4,P5,P6大小相同,均为16×(保证足够大的定位特征图)。模型名称为DetNet59。
2.在stage 4以后均使用Fig. 2B中的dilated bottleneck(保证足够大的感受野)来代替之前的卷积过程。



结果:

DetNet59相较于resnet101有更少的参数量,但在分类,检测,分割等任务中均有着很好的表现。


你可能感兴趣的:(DetNet(A Backbone network for Object))