作者信息
第一作者Siyuan Qiao目前是约翰霍普金斯大学的博士生,第二作者是著名的DeepLab系列算法的主要作者、谷歌公司的研究员Liang-Chieh Chen。
在COCO数据集的实例分割和全景分割任务中,DetectoRS,成为当前目标检测、语义分割和全景分割领域的全能者。
介绍
在本文中,作者探索了用于目标检测的主干设计中的这种机制。在宏级别提出了递归特征金字塔,它结合了从特征金字塔网络到自下而上的骨干层的额外反馈连接。在微观层面上,作者又提出了可切换的Atrous卷积,它以不同的atrous速率对特征进行卷积,并使用switch函数收集结果。将它们组合在一起将产生DetectoRS,这将大大提高对象检测的性能。在COCO测试开发中,DetectoRS达到了用于对象检测的54.7%的盒式AP,用于实例分割的47.1%的遮罩AP和用于全景分割的49.6%的PQ。
架构思想
检测器的思想来源于Faster RCNN 、Cascade R-CNN等成功的目标检测算法的思想:三思而后行(无论是两级检测器还是级联检测器,都反映了信息的重复使用和细化),将此思想应用于骨干网的改进。主要创新点如图所示:
图1:(a)我们的递归特征金字塔添加了从上至下FPN层到自下而上骨干层的反馈连接(实线),以查看图像两次或更多次。(b)我们的可切换原子卷积在具有不同原子速率的输入特征上查看两次,并且通过开关将输出组合在一起。
在宏层次上,提出了一种递归特征金字塔网络(RFP,recursive feature pyramid),它将FPN的反馈信息集成到骨干网络上,使骨干网络重新训练的特征能够更好地适应检测或分割任务。
在微观层次上,提出了用可切换的阿托洛斯卷积(SAC)来代替骨干网络上的标准卷积,使模型能够自适应地选择接收场。
递归特征金字塔网络(RFP)
众所周知的特征金字塔网络(FPN)是将骨干网不同阶段的特征金字塔形成一个特征金字塔,如下(a)所示,RFP为骨干网增加目标检测任务的梯度,如下图(B)所示。
图2:递归特征金字塔(RFP)的体系结构。(a)功能金字塔网络(FPN)。(b)我们的RFP包含将反馈连接到FPN。(c)RFP展开到两步顺序网络。
反馈连接网络
图3:RFP将变换后的功能添加到Re的每个阶段
RPN中的融合模块:
图4:RFP中使用的融合模块。σ是输出Sigmoid,用于融合来自不同步骤的特征
可切换的空洞卷积
空心卷积可以增加网络的接收场,这已被证明是有效的检测和分割任务。
作者提出的可切换的Atrous卷积使网络训练尺度的选择更加灵活,如下图所示:
不同空穴率的空卷积捕获不同接收场的目标,网络可以学习一个开关,自适应地调整选择接收场的卷积结果。
网络结构如下图所示:
图4:可切换的Atrous卷积(SAC)。我们将主干网ResNet中的每个3x3卷积层都转换SAC,从而在不同的空率之间软切换卷积计算。锁指示权重为除可训练的差异外,其他均相同。
实验结果
作者在实验中对上述两项改进进行了评估。
图6:比较HTC,“ HTC + RFP”的培训损失,“ HTC + SAC”和DetectoRS在12个训练时期内。
可以看出,HTC算法+RFP或HTC+SAC的精度有了较大的提高,相比之下,HTC+SAC的改进更大,而加入RFP和SAC的精度最高。
下图显示了DetectoRS使用不同类型骨干网和其他SOTA算法的检测者的比较:
表1:在COCO test-dev上用于边界框对象检测的最新技术比较。TTA:测试时间增加,包括多尺度测试,水平翻转等。不带TTA的DetectoRS的输入大小为(1333,800)。mstrain:多尺度训练。
利用ResNeXt-101-32x4d骨干网,detectors在单尺度和多尺度上实现了COCO目标检测的最高精度,分别达到53.3mAP和54.7mAP
表5:在COCO test-dev上的实例细分比较。mstrain:多尺度训练。
结论
在本文中,基于“三思而后行”的设计理念,作者提出了DetectoRS。包括递归特征金字塔和可切换Atrous卷积。递归特征金字塔在宏级别(FPN的输出)实现了两次思考被带回到自下而上的骨干网的每个阶段通过反馈连接。可切换的Atrous卷积实例化了微观级别的两次,其中输入以两种不同的圆规速率进行卷积。在COCO上对DetectoRS进行了对象实例检测测试分割和全景分割都有非常优秀得表现。
论文地址:
https://arxiv.org/pdf/2006.02334.pdf
代码地址:
https://github.com/joe-siyuan-qiao/DetectoRS
更多论文地址源码地址:关注“图像算法”微信公众号