感受野块网络对于精确的和快速的目标检测
当前表现最好的目标检测器依赖于深度CNN主干网络,如Reset-101和inception网络,受益于他们强大的特征表示能力但是受制于巨大的计算消耗,相反的,一些基于检测的轻量级的模型执行实时过程,然而他们的精确度受到批评,在这篇论文中,我们探索了一种替代品通过一种手工设计的机制来强化轻量特征来建立一个快速和精确的检测器,受启发于人类视觉系统的感受野结构,我们提出了一个新颖的感受野块模型,将感受野的大小和离心率考虑进去,去增强特征的辨别性和鲁棒性,我们进一步的组装RFB在SSD的头部,重构出了RFBnet检测器,为了去评估它的有效性,进行了两个主要基准,结果表明,RFB网络能够在保持实时速度的同时达到先进深源探测器的性能。代码在https://github.com/ruinmessi/RFBNet.
关键词:实时目标检测 感受野块
介绍
在最近几年,基于区域的卷积神经网络(R-CNN)[8]等具有代表性的更新后代,如fast R- cnn[7]和faster R-CNN[26],一直坚持提升对目标检测的性能主要的挑战和基准,例如Pascal VOC [5], MS COCO [21],和ILSVRC [27]。他们把这个问题描述成两个阶段的问题,然后构建一个典型的管道,其中第一个阶段假设了类别不可知的对象建议在给定的图像,和第二阶段根据CNN的深度特征分类了每个建议框,在这种方法中,CNN的表示法起着至关重要的作用,学习特征有望提供高分辨能力的编码对象特征和良好的鲁棒性,特别是对于减轻位置变化有着很好的作用(通常由不准确的盒子引起)。一系列最新的工作证实了这样的一个事实,并且提取特征用更深的主干CNN网络像Resnet和Inception,介绍了一个自顶向下的结构去重构特征金字塔,整合低维和高维信息,Mask-Rcnn创作了一个RoIAlign层去产生更加精确地区域特征,这些方法都采用了改进的特征来达到更好的效果;然而,这些特征基本上来源于深层次的神经网络带有很大的计算消耗,使他们受限于一个低的推理速度
为了去加速目标检测,单阶段的框架被研究出来,丢弃了产生目标建议框这一阶段这一过程,开创性的尝试例如yolo和SSD,表现了实时处理的能力,但是他们却试图牺牲了精确度,与最先进的两阶段解决方案相比,降幅有10%到40%不等,最近,可形变的SSD(DSSD)和retinanet实质上改善了精确率得分,该精确率与两级检测器报告的检测效率相媲美。但是是他们的性能的提高也归功于深度的ResNet-101模型,同时也限制了效率。
根据上面的讨论,建立一个快速而强大的探测器,一个合理的替代方案是去增强轻量级网络的特性表示,通过引入某些手工制作的机制而不是固执的加深模型。另一方面,一些神经科学的发现揭示了在人类视觉皮层中,群体感受域(pRF)的大小为人的视神经图上的离心率的函数,在两者之间变化如图1所示,在每个映射中,它随离心率的增大而增大,在图和图之间也是变化的。它有助于突出靠近中心区域的重要性并提升对微小的空间变化不敏感性。巧合的是,有一些浅的描述子利用这个机制来设计或学习它们的池化方案,在图像匹配中表现出良好的性能。
图1 在人类群体感受野属性下的规律
(A)在一些人类视网膜图下,群体感受野大小是离心率的函数,两个趋势被证实,(1)群体感受野在每一个图中随着离心率的增加而增加,(2)群体感受野的大小在图和图之间是不同的(B)群体感受野的空间矩阵基于参数的,每个圆的半径是在适当的离心率下的表观感受野的大小。
对于当前的深度学习模型,它们通常在特征图上按规律采样网格将感受野设置为相同的值,可能会在特征区分和鲁棒性上面带来一些丢失,Inception考虑了多个大小的感受野,而且他通过用不同的卷积核创造了多支CNN网络来实现这一概念,它的变体实现在目标检测(两阶段框架)和分类任务上面有竞争力的结果。然而所有的在Inception上的卷积核在同一个中心点进行采样,一个类似的想法产生了,
空洞空间卷积池化金字塔(ASPP)被利用去获取多尺度的信息,它应用了几个并行卷积在顶部的特征图上到中心的距离有不同的采样率,被证明在语义分割上面是有效的,但是这些特征与之前的具有相同内核大小的卷积层相比,分辨率是一致的,并且与雏菊形状的卷积层相比,得到的特征往往不那么明显。
可变型的CNN试图去适应性的根据目标的大小和形状调整感受野的空间分布,即使它采样的网格是复杂的,感受野离心率的影响没有考虑到,感受野中的所有像素对输出响应的贡献相等,并且不强调最重要的信息。
受启发于人类视觉系统的感受野,这篇论文提出了一个新颖的模块,叫做感受野块RFB,去加强深度特征在轻量级CNN模型下的学习到的深度特征,以至于他们可以贡献于快而准的检测器,特别的,RFB使用和不同大小的感受野相一致的变化卷积核来进行多分枝池化,应用于空洞的卷积层去控制离心率,并且重塑他们去产生最终的表达,在图2中,我们RFB模块放在在SSD的顶部,一个实时的方法用了一个轻量级的主干网络,并且得到先进的单阶段的检测器RFBnet,由于这样的简单的模块,rfbnet提供了一个相当好的分数比得上最新的基于检测的深度主干网络,并且保持了原始轻量级检测器的很快的速度,此外,RFB模块是通用的,对网络体系结构的约束很少。
图2 通过将多个分支与不同的内核和分布的卷积层相结合来构造RFB模块。 多个内核类似于大小不同的群体感受野,而膨胀的卷积层为每个分支分配了单独的离心率,以模拟pRF大小和偏心率之间的比率。 通过在所有分支中进行合并和1*1卷积,可以生成RF的最终空间阵列,这与人类视觉系统中的类似,如图1所示。
论文主要的贡献总结如下:
2.相关工作
两阶段的检测器,RCNN直接组合了裁剪框建议的步骤像选择性搜索并且通过一个CNN模型进行分类他们,产生相对于传统方法的一个很高准确率的一个收益,打开了在目标检测深度学习领域的一个时代,它的后代fast rcnn和faster rcnn更新了两阶段的网络,得到了一个显著的表现,此外,大量的高效延伸的网络被提出去更好的提高了检测的准确率,如rfcn,fpn,mask-rcnn
一阶段的检测器:最能够代表一阶段的检测器是yolo和ssd,他们基于整张特征图来预测置信度和定位多目标,为了加速两个检测器都采用轻量级的检测主干网络,而他们的准确性明显落后于两阶段的方法。
最近更先进的单阶段的目标检测器如DSSD和retinaNet通过更深层的resnet-101和应用特定的技术来更新他们的原始轻量级主干网络,比如说反卷积或者focal loss,这些得分能够和表现最好的两阶段的方法相媲美或者优于这些方法,这种性能的提高很大程度上消耗了它们在速度上的优势。
感受野--在本研究中,我们的目标是在不增加太多计算负担的情况下提高高速单阶段检测器的性能。因此,rfb代替应用非常深的主干网络,模仿了人类视觉系统里面的感受野机制,被用来提高基于特征表示的轻量级模型,事实上,这些现有的许多研究讨论在cnn上的感受野,并且最相关的是inception家族,和空洞空间卷积池化金字塔aspp和可形变的卷积神经网络上面
Inception块采用了带有不同卷积核大小的多分支去获取多尺度的信息,但是,所有的内核都是在同一个中心采样的,这就需要更大的内核来达到相同的采样覆盖率,从而丢失了一些关键的细节。
对于空洞空间卷积池化金字塔aspp,空洞的卷积改变了距离中心点的采样距离,特征有了统一的分辨率,它对所有位置的线索都一视同仁,这可能会导致对象和环境之间的混淆。
可变形的CNN学习单个物体的独特分辨率,但是的是他保持了和空洞空间卷积池化金字塔相同的缺点,rfb与他们不同,他强调在感受野大小和离心率的关系,一个雏菊配置,大的权重通过小的卷积被分配给距离中心点近的位置,表明他们比更远的位置重要,可以在图3中看到,四个典型的空间感受野结构的差别,另一方面,Inception和aspp没有成功的应用在提高单阶段检测器上面,然而rfb在这个问题上利用他们的优点表现了一个更高效方法
图3 四个典型的空间感受野结构图,(a)表明了在Inception中的多重大小的卷积核(b)表明了在aspp雏菊形状的池化配置(c)目标特征用一个变形的卷积去产生一个可适应的感受野根据(d)表明了rfb的机制,每一个结构的颜色图是高效的感受野来源于一个训练模型中对应的层,通过同样的梯度反向传播方法来描述,在(a)和(b)中,为了公平比较我们在原始的inception和aspp中调整了感受野的大小
3.方法
在这节我们将重新温习人类视觉系统,介绍我们的rfb组成和方法去模拟这样一个机制,并且描述rfbnet检测器的结构和它的训练测试模块
3.1视觉皮层再访问
在过去的几十年中,功能磁共振成像(fMRI)以毫米波分辨率测量人脑活动已经成为现实,射频建模已成为预测反应和阐明大脑计算的重要感官科学工具。由于人类神经科学仪器经常观察到许多神经元的集中反应,这些模型因此普遍叫做群感受野模型,基于FMRI和pRF模型,使得在皮质层跨许多视觉领域图研究这种关系成为可能,在每一个皮质层图中,研究者发现在pRF和离心率之间一个正相关性,然而相关性系数在视觉领域图中发生变化,在图1中展现
3.2感受野块
我们所提出的rfb是一个多分支的卷积块,它的内部结构可以分为两个元素,一个具有不同卷积核的多分支卷积层和和后面的空洞池化层或者卷积层,前半部分是和inception前面是一样的,负责模拟多层大小的群感受野,并且后面部分复制了人类视觉系统中的群感受野大小和离心率,图2表明rfb和它的对应的空间池化区域图,我们在下面详细描述这两个部分和他们功能
多分支卷积层,根据在cnn中感受野的定义,利用不同卷积核去实现多尺寸的感受野是简单的和自然的方法,按理应该优于那些共享一个固定大小的尺寸的感受野
我们在更新的版本中采用了最新的变化,Inception V4和Inception-ResNet V2在Inception家族中,特别的,首先,我们在每个分支中使用瓶颈结构(由1*1卷积层组成)来减少特征图feature map中的通道数和n*n卷积层。第二,我们用两个堆放着的3*3卷积层来代替5*5的卷积层去减少参数并且去加深非线性层,出于同样的原因,我们使用了一个1*n加n*1的卷积层去代替原始的n*n的卷积层,最终,我们应用了来源于resnet和inception-resnet简洁设计
空洞的池化层或卷积层:这个概念源自于deeplab的介绍,也叫空洞卷积层,这种结构的基本意图是生成更高分辨率的特征图,在保持参数数量不变的情况下,在更大的范围内捕获更多的信息。这一设计很快被证明能够胜任语义分割,并已被一些著名的目标检测器采用,如SSD和R-FCN,以提高速度或/和准确性。
图4 RFB和RFB-s的体系结构。 RFB-s用于模拟浅层人类视网膜图谱中的较小pRF,使用更多的分支和较小的内核。之后,我们使用两层3*3 conv替换5*5来减少参数,图中未显示更好可视化。
在这个论文中,我们开发了空洞卷积去模拟人类视觉皮层中的群感受野和离心率,图4展示了多分支卷积层的组合和空洞池化或者卷积层的组合,在每个分支处,特定核大小的卷积层之后是具有相应扩展的池化或卷积层。核的大小和扩张与视皮层中pRFs的大小和偏心率具有相似的正相关关系。最终将所有分支的特征图feature map拼接在一起,合并成一个空间池或卷积阵列,如图1所示。
Rfb特定的参数,如核大小,分支的空洞,和分支的数量,在检测器中每一个位置有些许的不同,在下一节进行阐明
3.3 rfbnet 检测器体系结构
提出的rfbnet检测器再次使用了多尺度和单阶段框架ssd,其中RFB模块被嵌入,以改进从轻量级主干中提取的特征,从而使检测器更准确和足够快。由于rfb的属性很容易被整合到CNN中,我们可以最大限度的保存ssd的体系结构,主要的调整在于用RFB,代替卷积层顶部和一些微小但活跃的层在图5中给出
图5,rfbnet300流程图,conv4_3特征图由具有较小感受野的RFB-s尾随,并通过在原始RFB中操作多内核卷积层来生产具有2个2步的RFB模块。
轻量级骨干网:我们使用与SSD中完全相同的骨干网。 简而言之,它是在ILSVRC CLS-LOC数据集上经过预训练的VGG16架构,其中其fc6和fc7层被转换为具有子采样参数的卷积层,其pool5层从2*2-s2至3*3-s1。 膨胀的卷积层用于填充所有孔,所有的dropout层和fc8层被去掉。 即使许多完备的轻量级网络被提出(例如DarkNet,MobileNet和ShuffeNet),我们将重点放在此主干上以实现与原始SSD的直接比较。
多尺度特征图上的RFB:在原始SSD中,基本网络之后是级联的卷积层,以形成一系列具有连续减小的空间分辨率和增大的视野的特征图。在我们的实现中,我们保留了SSD的相同级联结构,但是具有相对较大分辨率的特征图的前卷积层被RFB模块取代。在RFB的初级版本中,我们使用单个结构设置来模仿偏心率的影响。随着视觉图之间pRF尺寸的大小和偏心率的变化,我们相应地调整RFB的参数以形成RFB-s模块,该模块模仿浅层人类视网膜图谱中较小的pRF,并将其置于conv4-3特征之后,如图4和图5所示。因为它们的特征图的分辨率太小,无法应用5*5之类的大内核,所以保留了最后的几个卷积层。
3.4训练设置
我们利用ssd.pytorch存储库提供的开源基础设施的几个部分,在Pytorch框架的基础上实施RFBNet检测器。 我们的训练策略主要遵循SSD,包括数据增强,困难负样本挖掘,默认框的比例和长宽比以及损失函数(例如,定位的smooth L1 loss和分类的softmax loss),而我们会略微更改学习率计划以更好地容纳RFB。 实验的以下部分提供了更多详细信息。所有新的卷积层都使用MSRA方法初始化。
4.实验
我们对Pascal VOC 2007和MS COCO数据集进行了实验,这些数据集分别具有20和80个对象类别。 在VOC 2007中,如果其预测的边界框与真实标签框的交集(IoU)大于0.5,则为预测边界框,而在COCO中,它将使用各种阈值进行更全面的计算。 评估检测性能的指标是平均精度的均值(mAP)。
4.1 Pascal voc 2007
在本实验中,我们以2007年和2012年的trainval联合训练RFB网络。 我们将批次大小设置为32,初始学习率设置为10-3(与原始SSD一样),但这会使训练过程变得不稳定,损失会急剧波动。取而代之的是,我们使用“热身”策略,在前5轮将学习率从10-6逐渐提高到4*10-3。在“热身”阶段之后,它返回到原始学习率,在150轮和200轮除以10, 训练的总轮数是250。根据22,我们利用了0.0005的权重衰减和0.9的动量。
表1显示了我们的结果与VOC2007测试集上的最先进的结果之间的比较。 SSD300*和SSD512*是更新后的SSD结果,具有数据增强功能,该功能可以缩小图像以创建更多小示例。为了公平起见,我们使用与RFBNet相同的环境Pytorch-0.3.0和CUDNN V6重新实现SSD。 通过集成RFB层,我们的基本模型RFBNet300以80.5%的mAP优于SSD和YOLO,同时保持了SSD300的实时速度。它甚至可以达到两阶段框架下的高级模型R-FCN的精度。RFBNet512具有较大的输入大小,可实现82.2%的mAP,比大多数具有非常深的基础骨干网的一级和二级物体检测系统要好,同时仍可以高速运行。
表1:PASCAL VOC 2007测试集上检测方法的比较。 所有运行时信息都是在Geforce GTX Titan X(Maxwell架构)的图形卡上计算的。
4.2 控制变量法研究
Rfb 模块:为了更好地理解RFB,我们调查了每个组件在其设计中的影响,并将RFB与某些相似的结构进行了比较。结果汇总在表2和表3中。如表2所示,具有新数据增强功能的原始SSD300达到了77.2%mAP。 通过简单地用RFB最大池化替换最后一个卷积层,我们可以看到结果提高到79.1%,增益为1.9%,这表明RFB模块在检测方面是有效的。
皮质图模拟:如第3.3节所述,我们调整RFB参数以模拟皮质图中pRF的大小与偏心率之间的比率。此项调整将RFB最大池化的性能提高了0.5%(从79.1%提高到79.6%),将RFB扩展的卷积的性能提高了0.4%(从80.1%提高到80.5%),这验证了人类视觉系统的机制(表2)。
更多先前的锚点:原始SSD在conv4-3,conv10-2和conv11-2功能图位置上仅关联4个默认框,并为所有其他层关联6个默认锚点。最近的研究表明低水平特征对于检测小物体至关重要。因此,我们认为,如果在低级特征图中(如conv4-3)添加更多锚点,则性能(尤其是小型实例)趋于提高,在实验中,我们将6个默认优先级放在conv4-3上,并且对原始的SSD没有影响,而对于我们的RFB模型(表2)则进一步提高了0.2%(从79.6%提高到79.8%)。
扩展卷积层:在早期的实验中,我们为RFB选择了膨胀池化层以避免产生额外的参数,但是这些固定池化策略限制了多种尺寸RF的特征融合。当选择膨胀的卷积层时,我们发现它在不降低推理速度的情况下将精度提高了0.7%(从79.8%提高到80.5%)(表2)。
表2 各种设计的有效性在voc2007测试集上(参照节3.3和节4.2获取更多信息)
与其他架构的比较:我们还将RFB与Inception,ASPP和可变形CNN比较。 对于Inception,除原始版本外,我们更改其参数,使其具有与RFB相同的RF大小(称为 Inception-L)。对于ASPP,其主要参数在图像分割中进行了调整,感受野太大而无法检测到,因此在我们的实验中,我们也将其设置为与RFB中相同的大小(称为ASPP-S)。 图3显示了其结构的可视化比较。 简而言之,我们将这些结构分别安装在检测器的顶层,如图5所示,并保持相同的训练时间表和几乎相同数量的参数。 他们对Pascal VOC和MS COCO的评估记录在表3中,我们可以看到我们的RFB表现最好。 表明专用RFB结构的确具有更大的感受野比起对手来说,确实有助于提高检测精度。(见图3的例子)。
表3 比较不同的块在voc2007测试和ms coco minival2014
4.3微软 coco
为了进一步验证所提出的RFB模块,我们对MS COCO数据集进行了实验。按照,我们使用trainval35k集(train set + val 35k set)进行训练,并将批大小设置为32。由于COCO中的对象比Pascal voc中的小,我们保留了原始的SSD策略来减小默认框的大小。在训练开始时,我们仍然采用“热身”技术,从前5轮将学习率从10-6逐渐提高到2*10-3,然后在80和100轮之后将其减小10倍,最后在120轮停止。
从表4中可以看出,RFBNet300在测试开发集上达到了30.3%/ 49.3%,大大超过了SSD300*的基线得分,甚至等于R-FCN的得分,在两阶段框架下,将ResNet-101用作具有较大输入大小(600*1000)的基础网络。
对于更大的模型,RFBNet512的结果略逊于但仍可与最近的先进的单阶段模型RetinaNet500(33.8%对34.4%)相媲美。 但是,应该指出的是,RetinaNet利用了深度的ResNet-101-FPN骨干网和一个新的损失,使学习重点放在了困难的示例上,而我们的RFBNet仅建立在轻量级的VGG模型上。另一方面,我们可以看到RFBNet500每个图像平均消耗30毫秒,而RetinaNet需要90毫秒。
可能有人注意到RetinaNet800报告了基于高达800像素的超高分辨率的最高准确性(39.1%)。 尽管众所周知,较大的输入图像大小通常会产生更高的性能,但它超出了本研究的范围,在该研究中,人们一直追求精确,快速的检测器。 相反,我们考虑了两个有效的更新方法:(1)在应用RFB-s模块之前对conv7 fc特征图进行上采样并与conv4 3进行连接,共享FPN中的策略;(2)在所有RFB层中添加一个具有7*7内核的分支。 如表4所示,它们进一步提高了性能,在本研究中以34.4%(表示为RFB Net512-E)获得了最高分,而计算成本仅略有上升。
表4 检测表现在coco test-dev 2015数据集上,几乎所有的方法都是在NVIDIA titan X(Maxwell 体系结构)GPU上,除了retinaNet,mask-Rcnn和fpn(NVIDIA M40 gpu)
图6,速度(ms)和准确率(mAP)在MS COCO test-dev,在RFB模块的支持下,我们的单级检测器超越了所有现有的高帧速率检测器,包括最好的单级系统Retina-50-500
5.讨论
推理速度比较:在表1和图6中,我们展现了与其他最近表现最好的探测器的速度比较。在我们的实验中,由于MS COCO具有80个类别并且平均密集实例在NMS过程上花费了更多时间,因此不同数据集中的推理速度略有不同。表1显示我们的RFBNet300是最准确的一个(80.5%mAP)在实时检测器中运行,并在Pascal VOC上以83fps的速度运行,而RFBNet512仍以38fps的速度提供更准确的结果。在图6中,我们遵循绘制RFB Net的速度/精度权衡曲线,并将其与RetinaNet和MS COCO测试开发集上的其他最新方法进行比较。此图显示,我们的RFB网络在所有实时检测器中形成了较高的包络线。特别是,RFBNet300保持高速(66 fps)的性能,同时胜过所有高帧速的同类产品。请注意,除了RetinaNet(Nvidia M40 GPU)以外,在相同的Titan X(Maxwell架构)GPU上进行测量。
其他轻量级骨干网:尽管我们使用的基本骨干网是简化的VGG16版本,但与最近的那些先进的轻量级骨干网相比,它仍然具有大量参数网络,例如MobileNet,DarkNet和ShuffeNet。为了进一步测试RFB的泛化能力模块,我们将RFB链接到MobileNet-SSD。按照,我们以相同的时间表在MS COCO train + val35k数据集上对其进行训练,并对minival进行评估。表5显示,RFB仍通过有限的附加层和参数来提高MobileNet主干网的准确性。这表明其在低端设备上的巨大应用潜力。
从头开始训练:我们还注意到RFB模块的另一个有趣特性,即从头开始有效地训练目标检测器。最近,根据,发现不使用预先训练的主干进行训练是一项艰巨的任务,在这种情况下,基础网络的所有结构都无法在两阶段框架中从零开始训练,而在单阶段框架中流行的CNN(ResNet或VGG)会成功收敛,结果却差得多。深度监督目标检测器(DSOD)提出了一种轻量级的结构,
在不进行预训练的情况下,VOC2007测试集可达到77.7%的mAP,但使用预训练的网络时,性能不会提高。我们从零开始在VOC07 + 12trainval上训练我们的RFBNet300,并在同一测试装置上达到了77.6%的mAP,这与DSOD相当。 值得注意的是,我们的预训练版本将性能提高到80.5%。
表5.使用mobilenet作为主干网络在MS COCO minival2014上的准确率
6.结论
在本文中,我们提出了一种快速而强大的物体检测器。 与大大加深骨干网的广泛采用的方式相反,我们选择通过引入一种模仿结构的手工机制来增强轻量级网络的特征表示,即感受野块(RFB)。
在人类视觉系统中的感受野的大小和离心率之间的关系,并生成更具判别力和鲁棒性的特征。RFB装备在基于CNN的轻量级SSD的顶部,由此产生的检测器在Pascal VOC和MS COCO数据库上提供了显着的性能提升,其最终精度甚至可以与现有的性能最好的基于更深模型的探测器相媲美。此外,它在轻型模型的处理速度方面保留了优势。