论文链接:https://arxiv.org/abs/2210.02093
代码链接:https://github.com/QY1994-0919/CFPNet
创作背景:现有方法过分关注层间特征交互而忽略了层内特征规则,而这些规则已证明是有益的。尽管一些方法试图在注意力机制或视觉transformer的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务很重要的被忽略的角区域。
创新点:
提出了一种空间显式视觉中心方案,该方案由用于捕获全局远程依赖项的轻量级 MLP 和用于聚合局部关键区域的可学习视觉中心组成;
以自上而下的方式提出了对常用特征金字塔的全局集中调节;
CFP 在强目标检测基线上取得了一致的性能提升。
优势:与现有的特征金字塔相比,CFP不仅具有捕获全局长程依赖的能力,而且可以有效地获得全面但有判别力的特征表示。具有挑战性的 MS-COCO 的实验结果验证了 CFP 可以在最先进的 YOLOv5 和 YOLOX 对象检测基线上实现一致的性能增益。
背景介绍与相关工作:
(1)特征交互:有效的特征交互可以使图像特征看到更宽的范围并获得更丰富的表示,因此对象检测模型可以学习像素/对象之间的隐式关系。如FPN,NAS-FPN,PANet,BiFPN。
(2)层内交互:用于空间特征调节,更精细。如GCNet。
基于以上两种交互机制,FPT [15]进一步提出了层间跨层和层内跨空间特征调节方法,并取得了显着的性能。
(3)CNN骨干网:侧重于局部区域的代表性学习,受限于固定的小感受野限制,骨干特征只能定位哪些最具辨识的对象区域。CNN 特征只能捕获有限的上下文信息。
(4)Vision Transformer:这些方法首先将输入图像划分为不同的图像块,然后利用块之间基于多头注意力的特征交互来完成获取全局远程依赖的目的。侧重于决定在图像中的何处投射更多注意力。但是其计算量极大,并由于基于视觉变换器的方法是在全向和无偏学习模式下实现的,这很容易忽略一些角落区域,这对于密集预测任务很重要。这些缺点在大规模输入图像上更为明显。
(5)MLP:可减轻数据布局的变化,搭配Vision Transformer使用效果显著,通过空间特征信息和通道特征信息的交互,可以更好地建立特征的长依赖/全局关系和空间关系,可以捕获输入图像的全局上下文信息和长期依赖性。
(6)浅层特征:主要包含一些一般的对象特征模式,例如纹理、颜色和方向,这些模式通常不是全局的。
(7)深层特征:反映了对象特定的信息,这通常需要全局信息。
CFPNet结构:
如上图 所示,CFP 主要由以下部分组成:输入图像、提取视觉特征的 CNN 主干、显式视觉中心 (EVC)、全局集中调节 (GCR) 和用于对象检测的预测头部网络(由分类损失、回归损失和分割损失组成)。EVC 和 GCR 是在特征金字塔上实现的。
EVC:
主要由两个并行连接的块组成,其中使用轻量级 MLP 来捕获顶级特征的全局远程依赖性(即全局信息)。
同时,为了保留局部角点区域(即局部信息)在 上实现可学习的视觉中心机制来聚合层内局部区域特征。这两个块的结果特征图沿着通道维度连接在一起,作为 EVC 的输出,用于下游识别。
在 和 EVC 之间,一个 Stem 块用于特征平滑, Stem 块由输出通道大小为 256 的 7 × 7 卷积、后跟批量归一化层和激活函数层组成。函数表示如下:
MLP:
使用的轻量级 MLP 主要由两个残差模块组成:一个基于深度卷积的模块(与传统的空间卷积相比,深度卷积可以提高特征表示能力,同时降低计算成本)和一个基于通道 MLP 的块。这两个块之后都进行了通道缩放操作 和 DropPath 操作 ,以提高特征泛化和鲁棒性能力。函数表示如下:
从基于深度卷积的模块 输出的特征首先被馈送到组归一化,然后通道 MLP在这些特征上实现。与空间MLP相比,通道MLP不仅可以有效降低计算复杂度,而且可以满足一般视觉任务的要求。
LVC:
一个带有固有字典的编码器,两部分:1) 一个固有码本:B = {b1, b2, . . . , bK}, 其中 N = H × W 是输入特征的总空间数,其中 H 和 W 分别表示特征图空间大小的高度和宽度; 2) 一组比例因子 S = {s1, s2, . . . , sK} 为可学习的视觉中心。
流程为:来自 Stem 块 Xin 的特征首先由一组卷积层(由 1×1 卷积、3×3 卷积和 1×1 卷积组成)的组合编码。然后,编码后的特征由 CBR 块处理,该块由带有 BN 层的 3×3 卷积和 ReLU 激活函数组成。通过以上步骤,编码后的特征χin被输入到密码本中。使用一组缩放因子 s 依次使 xi 和 bk 映射相应的位置信息。整幅图像关于第k个码字的信息可以通过下式计算:
接着使用 φ 融合所有 ek,其中 φ 包含 BN 层与 ReLU 和均值层。在此基础上,整幅图像关于K个码字的全信息计算如下
然后 馈送到全连接层和 1×1 卷积层,之后使用来自 Stem block Xin 的输入特征与缩放因子系数 δ(·) 之间的逐通道乘法
最后,元素叠加
EVC 是一种广义的层内特征调节方法,它不仅可以提取全局长程依赖性,还可以尽可能地保留输入图像的局部角点区域信息,这对于密集的预测任务。然而,在特征金字塔的每一层都使用 EVC 会导致大量的计算开销。
GCR:
为了提高层内特征调节的计算效率,进一步以自上而下的方式提出了特征金字塔的 GCR。
流程:空间 EVC 首先在顶层(即)实现的特征金字塔。然后,使用获得的包含空间显式视觉中心的特征 X 来同时调节所有正面浅层特征(即 X3 到 X2)。在每个相应的低级特征上,在深层获得的特征被上采样到与低级特征相同的空间尺度,然后沿着通道维度连接起来。在此基础上,连接的特征通过 1×1 卷积下采样到 256 的通道大小。通过这种方式,我们能够显式地增加自上而下路径中特征金字塔每一层的全局表示的空间权重。
一些疑问:是否就是特征金字塔中的layer 4?特征金字塔中的layer是否就是EVC? (看完代码后再补充回答)
实验:
消融实验
大概有1.4AP的提升。
性能对比实验
特征金字塔中的layer为CSP block和标准卷积,还是没搞明白。