Abstract
许多现代的目标探测器都采用了“三思”机制,表现出了优异的性能。本文将此机制应用于目标检测的主干设计中。在宏层次上,我们提出了递归特征金字塔,它将来自特征金字塔网络的额外反馈连接合并到自下而上的主干层中。在微观层面上,我们提出了可切换的阿托拉斯卷积,该卷积以不同的阿托拉斯速率卷积特征,并使用开关函数收集结果。将它们结合在一起形成检测器,大大提高了目标检测的性能。在COCO测试开发平台上,检测器实现了目标检测54.7%的box-AP状态,实例分割47.1%的mask-AP状态,全景分割49.6%的PQ状态。https://github.com/joe-siyuan-qiao/DetectoRS
1. Introduction
为了检测物体,人类的视觉感知通过反馈连接传递高级语义信息,选择性地增强和抑制神经元的激活[2,19,20]。受人类视觉系统的启发,计算机视觉中的二次视觉和二次思维机制已经被实例化,并显示出优异的性能[5,6,58]。许多流行的两级目标检测器,如快速R-CNN[58],首先输出目标建议,然后根据这些建议提取区域特征来检测目标。按照同样的方向,Cascade R-CNN[5]开发了一个多级检测器,在该检测器中,随后的检测器头被训练成更具选择性的例子。这种设计思想的成功激发了我们在目标检测的神经网络主干设计中对其进行探索。特别是,我们在宏观和微观两个层面上都采用了这种机制,从而使我们提出的探测器大大提高了目前最先进的目标探测器HTC[7]的性能,同时推理速度保持不变,如表一所示。
在宏观层面上,我们提出的递归特征金字塔(RFP)是建立在特征金字塔网络(FPN)之上的[44],它将来自FPN层的额外反馈连接合并到自底向上的主干层中,如图1a所示。将递归结构展开到顺序实现中,我们获得了一个目标探测器的主干,它可以观察两次或更多的图像。类似于级联R-CNN中的级联检测器头,我们的RFP递归地增强FPN以生成越来越强大的表示。类似于深度监控的网络[36],反馈连接将直接从检测器头部接收梯度的特征带回自底向上主干的低水平,以加快训练和提高性能。我们提议的RFP实现了一个连续的两次查找和思考的设计,自下而上的主干和FPN运行多次,其输出特性依赖于前面步骤中的特性。
在微观层面上,我们提出了可切换的阿托洛斯卷积(SAC),它以不同的阿托洛斯速率卷积相同的输入特征[11,30,53],并使用开关函数收集结果。图1b示出SAC的概念的图示。开关功能是空间相关的,即特征映射的每个位置可能有不同的开关来控制SAC的输出。为了在检测器中使用SAC,我们将自底向上骨干网中的标准3x3卷积层全部转换为SAC,大大提高了检测器的性能。以前的一些方法采用条件卷积,例如[39,74],它也将不同卷积的结果合并为单个输出。不同于那些体系结构要求
为了从头开始训练,SAC提供了一种机制,可以方便地转换预训练的标准卷积网络(例如ImageNet pretrained[59]检查点)。此外,在SAC中使用了一种新的重量锁定机制,其中除了可训练的差异外,不同的萎缩卷积的重量是相同的。
结合建议的RFP和SAC结果在我们的探测器。为了证明它的有效性,我们在具有挑战性的COCO数据集[47]上将检测器纳入了最先进的HTC[7]。在COCO测试开发中,我们报告了用于对象检测的box AP[22]、用于实例分割的mask AP[26]和用于全景分割的PQ[34]。以ResNet-50[28]为主干的探测器显著提高HTC[7]7.7%的box-AP和5.9%的mask-AP。此外,为我们的探测器配备ResNeXt-101-32x4d[71]可实现最先进的54.7%盒式AP和47.1%掩模AP。加上DeepLabv3+[14]以Wide-ResNet-41[10]为骨干的素材预测,探测器为全景分割创造了49.6%的PQ新记录。
2. Related Works
目标检测。目标检测方法主要有两大类:一级方法,如[45、50、56、60、80、81]和多级方法,如[5、7、9、25、27、58]。多级探测器通常比一级探测器更灵活、更精确,但也更复杂。在本文中,我们使用一个多级探测器HTC[7]作为基线,并与这两类探测器进行了比较。
多尺度特征。我们的递归特征金字塔是基于特征金字塔网络(FPN)[44],一个有效的利用多尺度特征的目标检测系统。以前,许多目标检测器直接使用从主干网提取的多尺度特征[4,50],而FPN则采用自上而下的路径来顺序组合不同尺度的特征。PANet[49]在FPN的顶部添加另一个自底向上的路径。STDL[82]提出利用尺度转换模块的跨尺度特性。G-FRNet[1]使用选通单元添加反馈。NAS-FPN[24]和Auto-FPN[73]使用神经结构搜索[87]以找到最佳的FPN结构。EfficientDet[66]建议重复一个简单的BiFPN层。与它们不同的是,我们提出的递归特征金字塔通过自底向上的主干来不断丰富FPN的表示能力。此外,我们将阿托鲁斯空间金字塔池(ASPP)[13,14]整合到FPN中,以丰富功能,类似于无缝的mini DeepLab设计[55]。
递归卷积网络。为了解决不同类型的计算机视觉问题,人们提出了许多递归方法,如[32,42,65]。最近,CBNet[51]提出了一种递归的目标检测方法,它将多个骨干网级联,输出特征作为FPN的输入。相比之下,我们的RFP使用包含有效融合模块的、富含ASPP的FPN执行递归计算。
条件卷积条件卷积网络采用动态核、宽度或深度,例如[16,39,43,48,74,77]。与之不同的是,我们提出的可切换的阿托拉斯卷积(SAC)可以在不改变任何预训练模型的情况下,实现从标准卷积到条件卷积的有效转换机制。因此,SAC是一个即插即用的模块,用于许多预训练的骨干。此外,SAC使用全局上下文信息和一种新的权值锁定机制,使其更加有效。
3. 递归特征金字塔
3.1 特征金字塔网络
其中x0是输入图像,fS+1=0。基于FPN的目标检测器采用fi进行检测计算。
3.2 递归特征金字塔
我们对ResNet[28]主干网B进行了更改,以允许它同时接受x和R(f)作为输入。ResNet有四个阶段,每个阶段由几个相似的块组成。我们只对每个阶段的第一个块进行更改,如图3所示。此块计算3层要素并将其添加到通过快捷方式计算的要素中。为了使用特征R(f),我们添加了另一个卷积层,其内核大小设置为1。该层的权重初始化为0,以确保从预先训练的检查点加载权重时不会产生任何实际效果。
3.3. ASPP as the Connecting Module
我们没有一个卷积层跟随级联特征,因为在这里R不会生成密集预测任务中使用的最终输出。注意,这四个分支中的每一个都产生一个特征,其通道数是输入特征的1/4,连接它们会产生一个与R.In Sec的输入特征大小相同的特征。5,我们展示了带和不带ASPP模块的RFP的性能。
3.4 融合模块的输出更新
4. Switchable Atrous Convolution