Scale-Equalizing Pyramid Convolution for Object Detection论文阅读

摘要

特征金字塔是一种提取不同尺度特征的有效放法。该方法的发展主要集中在不同层次的上下文融合,而很少涉及特征金字塔的层间相关性。

早期的计算机视觉方法通过定位空间与尺度维度上的特征极值来提取尺度不变特征。受此启发,本研究提出了一种跨越金字塔层次的卷积,称为金字塔卷积,这是一种改进的3D卷积。堆叠的金字塔卷积可以直接提取三维(尺度和空间)特征,优于其他精心设计的特征融合模块。

基于三维卷积的观点,在金字塔卷积之后一般会插入从整个特征金字塔收集数据的集中批归一化。

此外,我们还证明了朴素金字塔卷积和RetinaNet头的设计实际上最适合从高斯金字塔中提取特征,而高斯金字塔的特征很难被特征金字塔所满足。为了减少这种差异,我们构建了一个=尺度均衡的金字塔卷积,它只在高层特征图上对齐共享的金字塔卷积核。该模块计算效率高,与大多数一阶段目标检测器的头部兼容,带来了显著的性能改善。

介绍

自然图像中,一个物体可能以截然不同的尺度出现但仍应被视作同一物体。而且这种尺度变化很容易超过1个量级,这在各种视觉任务中都是一项具有挑战性的任务。

多尺度训练:通过让网路记忆不同尺度下的模式来解决尺度变化的方法。
多尺度推断:与传统的图像金字塔方法有着相同思想。但是图像金字塔方法是耗时的,因为需要多个输入。

然而在特征金字塔的每两个层次之间都存在语义鸿沟。为了缓解这种差异,提出了不同的特征融合策略,包括自上而下的信息流,一个额外的自下而上的信息流动路径,多沙漏结构,连接不同层次特征,使用非局部注意力机制进行特征细化,渐进的多级局部信息融合。特征融合的设计是直观的,将特征图调整到相同的分辨率后直接相加。

尺度空间理论在传统的计算机视觉中已经研究了几十年。通过检测金字塔中的尺度空间极值提出了有效的特征点检测方法。基于此,文章提出了在尺度维度上通过显式卷积捕获尺度间的相互作用,在特征金字塔中形成三维卷积,称为金字塔卷积

与直接对所有特征图求和相比,在尺度维度上进行卷积是一种自然的选择。特征金字塔相邻尺度的特征图相关性最大,而在以往的研究中忽略了这一点。特征金字塔的构建是通过在主干网络(特征提取网络)每次下采样操作后提取中间输出。

一个高斯金字塔是通过连续模糊一个图像的高斯核后,再进行一个子采样。高斯模糊的核尺寸应该与子采样率成正比,这样可以在子采样是去除高频噪声,但又不会去除太多细节。在这个高斯金字塔中进行金字塔卷积有助于提取尺度不变特征。

比例均衡模块:特征金字塔之间的主干中存在多个卷积层,获取下一个金字塔特征时需要进行ReLU等非线性操作,有效高斯核的理论值应随像素的变化而变化。通过这个模块来放宽差异。

利用变形卷积的思想,底层金字塔的核尺寸是固定的,随着共享核在尺度上的跨越而变形。在金字塔卷积上的这种修改使它能够通过在卷积更高的层时调整其内核来均衡不同的金字塔级别(尺度),因此被称为金字塔尺度平衡卷积(SEPC)。因为变形卷积只应用于高级特征,从特征金字塔中提取尺度不变特征只增加了有限的计算代价。试验证明SEPC模块使检测性能取得提升。

创新点

  • 提出了一个轻量级的金字塔卷积来在特征金字塔内部进行三维卷积,以满足尺度间的相关性。
  • 开发了一个尺度均衡的金字塔卷积(SEPC)来放宽特征金字塔和高斯金字塔之间的差异,通过调整共享的金字塔卷积核只在高级特征上共享金字塔卷积核。
  • 提高了检测性能

相关工作

目标检测
一阶段检测器:快速,性能落后
两阶段检测器:性能较好但效率低

特征融合
底层特征通常被认为缺乏语义信息,但保留了丰富的集合细节,这与高层特征相反。因此,特征融合在结合语义信息和几何信息方面起着至关重要的作用。

跨尺度相关性
计算跨尺度查分类似SIFT中的拉普拉斯算子,提取尺度不变特征。
有人使用扩展卷积将全卷机扩展到深度神经网络。
有人将所有的特征图转换为最大特征图大小后,将特征图相邻尺度融合在一起,捕捉尺度间相关性。

在这些工作中,有些对输入图像的不同变换进行重复计算,有些在高分辨率特征图上进行尺度相关,这两种方法都会导致计算资源的不必要增加。

金字塔卷积

Scale-Equalizing Pyramid Convolution for Object Detection论文阅读_第1张图片
实际上是一个跨越尺度和空间维度的三维卷积。如果将每一层的特征表示为1个点,如图4a所示,金字塔卷积可以表示为N个不同的2D卷积。不同的金字塔水平上存在大小的不匹配,空间大小随着金字塔水平的上升而缩小,为了适应这种不匹配,在不同层卷积时,对K个不同的内核设置了不同的步长。Scale-Equalizing Pyramid Convolution for Object Detection论文阅读_第2张图片
图5a可以看出RetinaNet head实际上也是一个比例核为1的金字塔卷积。我们的金字塔卷积模块可以直接替换掉4个卷积头,其scale kernel为3.

分类和定位分支共享4个金字塔卷积模块,形成图5b所示的组合头部结构。为了适应分类和定位任务的不同,在共享的4个金字塔卷积之后还增加了一个额外的普通卷积。

Scale-Equalizing Pyramid Convolution for Object Detection论文阅读_第3张图片

尺度均衡金字塔卷积

当N=1的金字塔卷积从金字塔中提取特征时,不同尺度的对象可以在不同的层次被同一个核捕获。此外在生成金字塔时还需要进行高斯模糊,以避免在向下采样的图像中提取特征时出现高频噪声。另一方面,太强的模糊掩盖了细节。高斯金字塔的最优模糊核是在两个金字塔层之间的下采样率附近。
Scale-Equalizing Pyramid Convolution for Object Detection论文阅读_第4张图片
内核与底层的特征图卷积被固定为一个普通的3x3卷积,在对特征金字塔的高层特征图进行处理时,根据当前的特征图预测变形偏移量。

通过这种方式,每个金字塔级别(尺度)的特征被变形偏移量均衡,并准备和共享的金字塔卷积核进行卷积。因此,这被称为尺度均衡金字塔卷积。

你可能感兴趣的:(#,CV论文阅读)