提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
特征融合是指来自不同层次或分支的特征的组合,是现代网络架构中无所不在的组成部分。它通常通过简单的操作来实现,如求和或连接,但这可能不是最好的选择。在这项工作中,我们提出了一个统一而通用的方案,即注意特征融合,它适用于大多数常见的场景,包括由短、长跳跃连接引起的特征融合以及在初始层内的特征融合。为了更好地融合不一致语义和尺度的特征,我们提出了一个多尺度通道注意模块,解决了融合不同尺度给出的特征时出现的问题。我们还证明了特征映射的初始集成可以成为一个瓶颈,这个问题可以通过添加另一个层次的注意力来缓解,我们称之为迭代注意特征融合。由于具有更少的层或参数,我们的模型在CIFAR-100和ImageNet数据集上都优于最先进的网络,这表明更复杂的特征融合注意机制具有巨大的潜力,可以持续产生更好的结果。
卷积神经网络(CNNs)通过更深的,更宽的,增加基数,动态细化特征,显著提高了表示能力,这与许多计算机视觉任务的进步相对应。
除了这些策略之外,本文还为我们研究了网络的一个不同组成部分,即特征融合,以进一步提高cnn的表示能力。无论是显性的还是隐式的,有意的还是无意的,特征融合在现代网络架构中无所不在,并在以往的文献中得到了广泛的研究。例如,在InceptionNet家族中,在同一级别上具有多个大小的过滤器的输出被融合,以处理对象大小的巨大变化。在残差网络(ResNet)及其后续的网络中,将实体映射特征和残差学习特征融合作为输出,使得对非常深的网络的训练成为可能。在特征金字塔网络(FPN)和U-Net中,通过长跳连接将低级特征和高级特征融合,获得高分辨率和语义强的特征,这对语义分割和目标检测至关重要。然而,尽管它在现代网络中很流行,但大多数关于特征融合的工作都集中于构建复杂的路径,以组合在不同的内核、组或层中的特征。特征融合方法很少被解决,通常通过简单的操作实现,如加法或连接,只提供固定的线性聚合,完全不知道这种组合是否适合特定的对象。
近年来,选择性核网络(SKNet)和ResNeSt被提出基于全局信道注意机制,对同一层中多个核或组的特征进行动态加权平均。虽然这种基于注意力的方法提出了特征融合的非线性方法,但它们仍存在以下缺点:
1.有限的场景:SKNet和ResNeSt只关注同一层的软特征选择,而跳过连接中的跨层融合没有被修饰,使得他们的方案相当启发式。尽管有不同的场景,但各种特性融合实现都面临着相同的挑战,从本质上讲,也就是说,如何集成不同规模的特性以获得更好的性能。一个能够克服语义不一致并有效整合不同规模的特征结构的模块应该能够保持一致的。在各种网络场景下,提高了融合特性的质量。然而,到目前为止,目前还缺乏一种能够以一致的方式统一不同的特征融合场景的通用方法。
2.不复杂的初始集成:为了将接收到的特征输入注意模块,SKNet以一种非自愿但不可避免的方式引入了另一个特征融合阶段,我们称之为初始集成,并通过加法来实现。因此,除了注意模块的设计外,初始集成方法作为其输入,对融合权值的质量也有很大的影响。考虑到这些特征在规模和语义层面上可能有很大的不一致,一个忽略这个问题的不简单的初始集成策略可能是一个瓶颈。
3.偏置上下文聚合规模:SKNet和ResNeSt中的融合权值是通过全局通道注意机制生成的,这是更全局分布的信息的首选。然而,图像中的物体在大小上可能会有非常大的变化。许多研究都强调了在设计cnn时出现的这个问题,即预测器的接受域应该与对象尺度范围相匹配。因此,仅仅在全局范围内聚合上下文信息是过于有偏见的,并削弱了小物体的特征。这就产生了一个问题,即网络是否能够以一种上下文规模感知的方式动态地和自适应地融合接收到的特性。
基于上述观察结果,我们提出了注意特征融合(AFF)模块,试图回答各种特征融合场景的统一方法的问题,并解决上下文聚合和初始集成的问题。AFF框架将基于注意力的特征融合从同一层场景推广到跨层场景,包括短跳过连接和长跳过连接,甚至是AFF本身内部的初始集成。它提供了一种通用和一致的方法来提高各种网络的性能,如InceptionNet, ResNet, ResNeXt , and FPN,通过简单地用提议的AFF模块替换现有的特征融合运营商。此外,AFF框架支持通过将接收到的特征与另一个AFF模块进行迭代积分,逐步细化初始积分,即融合权重发生器的输入,我们称为迭代注意特征融合(iAFF)。
为了缓解尺度变化和小物体所带来的问题,我们主张注意模块也应该对不同尺度的物体收集来自不同接受域的语境信息。更具体地说,我们提出了多尺度通道注意模块(MS-CAM),这是一种简单而有效的方案来纠正不同尺度间的特征不一致性的注意特征融合。我们的关键观察是,尺度不是空间注意独有的问题,通道注意也可以通过改变空间池的大小而具有全局以外的尺度。MS-CAM通过沿通道维度聚合多尺度上下文信息,可以同时强调更全局分布的大型对象,突出分布更局部的小对象,促进网络在极端尺度变化下识别和检测的对象。
物体的尺度变化是计算机视觉中的关键挑战之一。为了解决这个问题,一种直观的方法是利用多尺度图像金字塔,即在多个尺度上识别对象,并使用非最大抑制将预测相结合。另一项工作是利用cnn固有的多尺度层次特征金字塔来近似图像金字塔,将多层的特征融合,获得高分辨率的语义特征。
深度学习中的注意机制模仿了人类的视觉注意机制,最初是在全局范围内发展起来的。例如,自注意中的矩阵乘法绘制了序列中的每个单词或图像中的每个像素的全局依赖性。挤压和激励网络(SENet)将全局空间信息压缩到一个信道描述符中,以捕获信道级的依赖关系。最近,研究人员开始考虑注意机制的规模问题。与上述处理cnn中尺度变化的方法类似,多尺度注意机制是通过将多尺度特征输入一个注意模块或在一个注意模块内结合多个尺度的特征上下文来实现的。在第一种类型中,将多个尺度的特征或其连接的结果输入注意模块,生成多尺度的注意图,而注意模块内的特征上下文聚合的尺度保持单一。第二种类型,也被称为多尺度空间注意,它通过不同大小的卷积核或从注意模块内的金字塔来聚合特征上下文。
提出的MS-CAM遵循ParseNet的思想,结合了cnn中的局部和全局特征,以及空间注意和在注意模块内聚合多尺度特征上下文的思想,但至少在两个重要方面存在差异 : (1)MS-CAM提出了信道注意中的尺度问题,它是通过 point-wise卷积而不是不同大小的核来实现的。(2)与主干网络不同,MS-CAM在通道模块内聚合局部和全局特征上下文。据我们所知,多尺度渠道的关注以前从未被讨论过。
跳过连接一直是现代卷积网络中的一个重要组成部分。短时间的跳过连接,即添加在残差块内的身份映射快捷方式,为在反向传播期间不中断的梯度流动提供了另一种路径。长跳过连接通过连接来自较低级的精细细节特征和粗分辨率的高级语义特征,帮助网络获得高分辨率的语义特征。尽管被用于组合不同路径中的特征,但连接特征的融合通常是通过添加或连接来实现的,它以固定的权重分配特征,而不管内容的方差如何。近年来,一些基于注意的方法,如全局注意上采样(Gau)和跳过注意(SA),已被提出使用高级特征作为指导,来调节长跳过连接中的低水平特征。然而,被调制特征的融合权值仍然是固定的。
据我们所知,是Highway Networks首次在短跳过连接中引入了一种选择机制。在某种程度上,本文提出的注意力跳过连接可以视为其后续,但不同的三点:1)Highway Networks采用一个简单的完全连接层,只能生成一个标量融合重量,而我们提出MSCAM生成融合权重相同大小的特征地图,使动态软选择元素的方式。2)Highway Networks只使用一个输入特性来生成权重,而我们的AFF模块都知道这两个特性。3)指出了初始特征集成的重要性,并提出了iAFF模块作为一种解决方案。
给定一个具有C通道的中间特征 X ∈ R C × H × W X∈R^{C×H×W} X∈RC×H×W和大小为H×W的特征图,SENet中的通道注意权值可以计算为:
w = σ ( g ( X ) ) = σ ( B ( W 2 δ ( B ( W 1 ( g ( X ) ) ) ) ) ) , ( 1 ) w = σ (g(X)) = σ (B (W_2δ (B (W_1(g(X)))))), (1) w=σ(g(X))=σ(B(W2δ(B(W1(g(X)))))),(1)
式中, g ( X ) ∈ R C g(X)∈R^C g(X)∈RC为全局特征上下文, g ( X ) = 1 H × W ∑ i = 1 H ∑ j = 1 W X [ : , i , j ] g(X)= \frac 1 {H×W} \sum ^H_{i=1} \sum ^W _{j=1} X_{[:,i,j]} g(X)=H×W1∑i=1H∑j=1WX[:,i,j]为全局平均池(GAP), δ表示校正后的线性单位(ReLU),B表示批处理归一化(BN),σ是Sigmoid激活函数。这是通过具有两个完全连接(FC)层的瓶颈来实现的,其中, W 1 ∈ R C r × C W_1∈R^{\frac Cr×C} W1∈RrC×C为降维层, W 2 ∈ R C × C r W_2∈R^{C×\frac C r} W2∈RC×rC为增维层。r为通道还原比。
我们可以看到,通道注意将每个大小为H×W的特征图压缩成一个标量。这个极端粗糙的描述符更倾向于强调全局分布的大型对象,并可能消除一个小对象中出现的大部分图像信号。然而,检测非常小的对象是最先进的网络的关键性能瓶颈。例如,COCO的差异性在很大程度上是由于大多数对象实例都小于图像面积的1%。因此,对全球渠道的关注可能不是最好的选择。多尺度特征上下文应该聚合在注意模块内,以缓解由尺度变化和小对象实例引起的问题。
在这部分中,我们详细描述了所提出的多尺度通道注意模块(MS-CAM)。其关键思想是,通过改变空间池化的大小,可以在多个尺度上实现通道注意。为了尽可能保持它的轻量级,我们只是将本地上下文添加到注意模块内的全局上下文中。我们选择 point-wise 卷积(PWConv)作为本地信道上下文聚合器,它只利用每个空间位置的 point-wise 信道交互作用。为了保存参数,通过瓶颈结构计算本地通道上下文 L ( X ) ∈ R C × H × W L(X)∈R^{C×H×W} L(X)∈RC×H×W,如下:
L ( X ) = B ( P W C o n v 2 ( δ ( B ( P W C o n v 1 ( X ) ) ) ) ) L(X) = B (PWConv_2 (δ (B (PWConv_1(X))))) L(X)=B(PWConv2(δ(B(PWConv1(X)))))
PWConv1和PWConv2的内核大小分别为 C r × C × 1 × 1 Cr×C×1×1 Cr×C×1×1,PWConv2分别为 C × C r × 1 × 1 C×Cr×1×1 C×Cr×1×1,值得注意的是,L(X)与输入特征具有相同的形状,它可以保留并突出显示低级特征中的细微细节。给定全局信道上下文g(X)和局部信道上下文L(X),通过MS-CAM可以得到如下的细化特征 X ∈ R C × H × W X∈R^{C×H×W} X∈RC×H×W如下:
X = X ⊗ M ( X ) = X ⊗ σ ( L ( X ) ⊕ g ( X ) ) , ( 3 ) X = X ⊗ M(X) = X ⊗ σ (L(X) ⊕ g(X)), (3) X=X⊗M(X)=X⊗σ(L(X)⊕g(X)),(3)
式中, M ( X ) ∈ R C × H × W M(X)∈R^{C×H×W} M(X)∈RC×H×W为MS-CAM产生的注意权重。⊕表示像素级加法,⊗表示元素级乘法。
给定两个特征图 X , Y ∈ R C × H × W X,Y∈R^{C×H×W} X,Y∈RC×H×W,默认情况下,我们假设Y是具有更大接受域的特征图。更具体地说:
基于多尺度信道注意模块M,注意特征融合(AFF)可以表示为:
Z = M ( X ⊕ Y ) ⊗ X + ( 1 − M ( X ⊕ Y ) ) ⊗ Y , ( 4 ) Z = M(X ⊕ Y) ⊗ X + (1 − M(X ⊕ Y)) ⊗ Y, (4) Z=M(X⊕Y)⊗X+(1−M(X⊕Y))⊗Y,(4)
其中 Z ∈ R C × H × W Z∈R^{C×H×W} Z∈RC×H×W为融合特征,⊕表示初始特征积分。在本小节中,为了简单起见,我们选择元素级求和作为初始积分。AFF如图2(a)所示,其中虚线表示1−M(X⊕Y)。需要注意的是,融合权值M(X⊕Y)由0和1之间的实数组成,1−M(X⊕Y) 也是如此,这使得网络能够在X和Y之间进行软选择或加权平均。
我们在表1中总结了深度网络中特征融合的不同公式。G为全局注意机制。尽管对于不同的特征融合场景,多种方法之间存在许多实现差异,但一旦被抽象为数学形式,这些细节上的差异就消失了。因此,有可能将这些特征融合场景与一种精心设计的方法统一起来,从而通过用这种统一的方法取代原来的融合操作,从而提高所有网络的性能。
从表1中可以进一步看出,除了实现权重生成模块G外,最先进的融合方案主要在两个关键方面有所不同:(a)是上下文感知级别。像加法和连接这样的线性方法完全是上下文不知道的。特征的细化和调制是非线性的,但只是部分地意识到输入的特征映射。在大多数情况下,它们只利用高级特性映射。完全上下文感知的方法利用这两种输入特征图作为指导,但代价是提高最初的集成问题。(b)细化vs调制vs选择。在软选择方法中,应用于两个特征映射的权值之和被约束为1,而这不是重新细化和调制的情况。
与部分上下文感知的方法不同,完全上下文感知的方法有一个不可避免的问题,即如何最初集成输入特性。作为注意模块的输入,初始整合质量可能会深刻地影响最终的融合权重。由于它仍然是一个特征融合的问题,一个直观的方法是有另一个注意模块来融合输入特征。我们称这种两阶段的方法为迭代注意特征融合(iAFF),如图2(b).所示然后,在等式中的初始积分X ⊕Y(4)可以被重新表述为:
X ⊕ Y = M ( X + Y ) ⊗ X + ( 1 − M ( X + Y ) ) ⊗ Y ( 5 ) X⊕ Y = M(X + Y) ⊗ X + (1 − M(X + Y)) ⊗ Y (5) X⊕Y=M(X+Y)⊗X+(1−M(X+Y))⊗Y(5)
为了验证所提出的AFF/iAFF作为一个统一和通用的方案,我们选择ResNet、FPN和InceptionNet作为最常见场景的例子:短跳和长跳连接以及同一层融合。通过替换原始的添加或连接,可以直接将AFF/iAFF应用到现有的网络中。具体来说,我们替换了初始网模块中的连接,以及ResNet块(Res块)和FPN中的添加,以获得注意网络,我们分别称之为AFF-InceptionNet模块、AFF-Res块和AFF-FPN。这种替换和我们提出的架构的方案如图3所示。iAFF是AFF的一个特殊情况,所以它不需要另一个说明。
为了进行实验评估,我们采用以下基准数据集:CIFAR-100[19]和ImageNet[31]用于同层搜索网和短期连接ResNet场景中的图像分类,以及长跳连接FPN场景中的一个子集)用于语义分割。详细设置列于表2。b是用于按深度扩展网络的每个阶段的重新编号。请注意,我们的CIFAR-100实验将图像分为20个超类,而不是100个类,它是MXNet/Gluon中CIFAR100类的默认设置。我们没有注意到它,直到我们的github回购出现了一个错误问题。然而,由于所有的CIFAR-100实验都是在同一个类数上进行的,所以我们从实验结果中得出的结论仍然成立。有关更多的实现细节,请参阅补充材料和我们的代码。
为了研究多尺度上下文聚合的影响,在图4中,我们构建了两个消融模块“全局+全局”和“局部+局部”,其中两个上下文聚合分支的尺度设置为全局或局部相同。提议的AFF在这里被称为“全局+局部”。它们都有相同的参数编号。唯一的区别是它们的上下文聚合规模。
表3显示了他们在各种主机网络上的CIFAR-100、ImageNet和StopSign上的比较。可以看出,多尺度上下文聚合(Global+Local)在所有设置中都优于单尺度上下文聚合。结果表明,多尺度特征情境对注意特征融合至关重要。
此外,我们还在表1中研究了哪种特征融合策略是最好的。为了公平起见,我们基于所提出的MS-CAM重新实现了这些方法。因为MS-CAM不同于他们最初的注意力模块,我们添加一个前缀“ms-”给新的实施方案,为了保持参数预算不变,这里的MS-Gau、MSSE、MS-SA和AFF中的信道缩减比r为2,而iAFF中的r为4。
表4给出了三种情况下的比较结果,可以看出:1)与线性方法相比,即加法和连接方法,具有注意机制的非线性融合策略总是提供更好的性能;2)我们的完全上下文感知和选择性策略略优于其他策略,这表明它应该优于多特征集成;3)大多数情况下,提出的iAFF方法在大多数情况下明显优于其他方法。研究结果有力地证明了我们的假设,即早期整合质量对注意特征有很大的影响而另一层次的注意特征融合可以进一步提高其性能。然而,这种改进可能会以增加优化的难度为代价。我们注意到,当网络深度随着b从3到4的变化而增加时,iAFFResNet的性能并没有提高,而是下降了。
为了研究所提出的MS-CAM对目标定位和小目标识别的影响,我们将GradCAM应用于ResNet-50、SENET-50和AFF-ResNet-50,用于ImageNet数据集图像的可视化结果,如图6所示。给定一个特定的类,Grad-CAM的结果清楚地显示了网络的参与区域。在这里,我们展示了预测类的热图,错误预测的图像用符号✖表示。预测的类名和它们的softmax分数也显示在热图的底部。
从图6的上半可以清楚地看到,AFF-ResNet-50的参与区域与标记的物体高度重叠,这表明它可以很好地定位对象并利用对象区域的特征。相反,基线ResNet-50的定位能力相对较差,在许多情况下错位放置了参与区域的中心。虽然SENet-50能够定位真正的对象,但参与的区域过大,包括许多背景组件。因为SENet-50只利用全局通道的注意力,偏向全球规模的上下文,而提出MS-CAM也聚合本地通道上下文,这有助于网络参加有更少的背景杂乱的对象,也有利于小对象识别。在图6的下半部分,我们可以清楚地看到AFF-ResNet-50可以对小尺度物体进行正确的预测,而ResNet-50在大多数情况下都是失败的。
结果表明,用原来的融合操作可以提高网络性能在注意特征融合时,我们将AFF和iAFF模块与其他基于相同主机网络的注意模块在不同的特征融合场景下进行了比较。图7显示了所有网络的网络深度逐渐增加时的比较结果。可以看出:1)比较SKNet/SENet/Gau-FPN与AFF-InceptionNet/AFF-ResNet/AFF-FPN,我们发现AFF或iAFF的集成网络在所有情况下都更好,这表明我们的(迭代)注意特征融合方法不仅具有优越的性能,而且具有良好的通用性。2)比较基于iAFF的网络与基于AFF的网络的性能,需要注意的是,所提出的迭代注意特征融合方案可以进一步提高性能。3)通过用所提出的AFF或iAFF模块替换简单的加法或连接,我们可以得到一个更高效的网络。例如,在图7(b)中,iAFF-ResNet(b=2)实现了与基线ResNet(b=4)相似的性能,而只需要54%的参数。
最后,我们在ImageNet上使用最先进的网络验证了基于AFF/iAFF的网络的性能。结果列于表5中。结果表明,在更小的参数预算下,基于AFF/iAFF的网络可以比最先进的网络提高性能。值得注意的是,在ImageNet上,提出的iAFF-ResNet-50在只有60%的参数下,比聚集-excite-θ-ResNet-101高出0.3%。这些结果表明,短跳过连接中的特征融合对ResNet和ResNeXt非常重要。我们应该更加关注特征融合的质量,而不是盲目地增加网络的深度。
我们将注意机制的概念推广为一种选择性和动态的特征融合类型,并推广到大多数场景中,即同层、短跳、长跳连接以及注意机制内部的信息集成。为了克服输入特征之间的语义和尺度不一致问题,我们提出了多尺度信道注意模块,该模块为全局信道统计添加了局部信道上下文。此外,我们指出接收特征的初始整合是基于注意的特征融合的瓶颈,可以通过添加另一个层次的注意,我们称为迭代注意特征融合来缓解。我们进行了详细的消融研究,以实证验证我们提出的注意机制的上下文感知水平、特征整合类型和上下文聚合尺度的个体影响。在CIFAR-100和ImageNet数据集上的实验结果表明,我们的模型在每个网络的层或参数下优于最先进的网络,这表明人们应该关注深度神经网络中的特征融合。
作者要感谢编辑和匿名审稿人的有用评论和建议,也要感谢Github上指出了我们的CIFAR-100代码中的错误。国家自然科学基金资助号61573183、模式识别国家实验室(NLPR)20190029号201000;南京航空航天大学博士短期访问学者项目资助号180104DF03;中国优秀中外青年交流计划、中国科技协会、国家奖学金资助委员会资助号201806830039。