卷积的位置信息

文本介绍两篇工作,来自同一团队,其中1是开创性工作,2是后续工作:

1.How much Position Information Do Convolutional Neural Networks Encode? (ICLR2020)

2.Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs(ICCV2021)


How much Position Information Do Convolutional Neural Networks Encode? 

https://arxiv.org/pdf/2001.08248.pdf

ICLR 2020

摘要:与全连接网络相比,卷积神经网络(CNN)通过学习与有限空间范围的局部滤波器相关的权值来实现效率。这意味着过滤器可能知道它在看什么,但不知道它在图像中的位置。关于绝对位置的信息本质上是有用的,可以合理地假设,如果有办法的话,深度CNN可能会隐式地学习编码这些信息。在本文中,我们检验了这一假设,揭示了在常用神经网络中编码的绝对位置信息的惊人程度。一组全面的实验证明了这一假设的有效性,并阐明了这些信息是如何以及在何处被表示的,同时提供了从深层CNN中获取位置信息的线索。

1 引言

卷积神经网络(CNN)在许多计算机视觉任务中取得了最先进的成果,例如目标分类(Simonyan&Zisserman,2014;He et al.,2016)和检测(Redmon et al.,2016;Ren et al.,2015)、人脸识别(Taigman et al.,2014)、语义分割(Long et al.,2015;Chen et al.,2018;Noh et al.,2015;Islam et al.,2017)和显著性检测(Cornia et al.,2018;Li et al.,2014;Jia&Bruce,2019;Islam et al.,2018)。然而,CNN在深度学习的背景下因缺乏可解释性而面临一些批评(Lipton,2018)。

经典CNN模型被认为是空间不可知的,因此胶囊(Sabour et al.,2017)或循环网络(Visin et al.,2015)已被用于建模学习特征层内的相对空间关系。目前尚不清楚CNN是否捕获了在位置相关任务中重要的任何绝对空间信息(例如语义分割和显著对象检测)。如图1所示,被确定为最显著的区域(Jia&Bruce,2018)倾向于靠近图像中心。在裁剪过图像上做显著性检测时,即使视觉特征没有改变,最显著的区域也会移动。考虑到CNN过滤器用于解释图像的有限空间范围,这有点令人惊讶。在本文中,我们研究了绝对位置的作用通过执行一系列随机化测试,假设CNN确实可以学习编码位置信息作为决策线索,从而获得位置信息。我们的实验表明,位置信息是通过常用的填充操作(零填充)隐式学习的。零填充被广泛用于在应用卷积时保持相同的维度。但是,它在表征学习中的隐藏效应一直被忽略。这项工作有助于更好地理解CNN中学习到的特征的性质,并为未来的研究强调了一个重要的观察和富有成效的方向。

以前的工作试图将学习到的特征图可视化,以揭开CNN工作的神秘面纱。一个简单的想法是计算损失并将其向后传递到输入空间,以生成一个模式图像,该图像可以最大限度地激活给定单元(Hinton et al.,2006;Erhan et al.,2009)然而,当层数增加时,很难对这种关系进行建模。最近的工作(Zeiler&Fergus,2014)提出了一种非参数可视化方法。反卷积网络(Zeiler et al.,2011)将学习到的特征映射回输入空间,其结果揭示了特征映射实际学习的模式类型。另一项工作(Selvaraju et al.,2017)建议将像素级梯度与加权类激活映射相结合,以定位最大化类特定激活的区域。作为可视化策略的替代方案,一项实证研究(Zhang et al.,2016)研究表明,一个简单的网络可以在嘈杂的标签上实现零训练损失。我们同意应用随机化测试来研究CNN学习的特征的类似想法。然而,我们的工作与现有方法不同,这些技术只提供有趣的可视化或理解,但无法阐明CNN模型如何编码空间关系。

总之,CNN已经成为一种处理端到端完全连接网络所带来的数量惊人的权重的方法。由此产生的一个权衡是,内核及其学习的权重只能看到图像的一小部分。这似乎意味着解决方案,其中网络更多地依赖于这样的提示,例如纹理和颜色,而不是形状(Baker等人,2018)。尽管如此,位置信息为图像中物体可能会出现在哪个位置提供了强有力的线索(例如鸟在天空中)。可以想象的是,网络可能充分依赖这些线索,它们隐式地编码空间位置以及它们所代表的特征。我们的假设是,深层神经网络通过学习事物是什么和在哪里而部分成功。本文验证了这一假设,并提供了令人信服的证据,证明CNN确实做到了这一点,依靠和学习图像中的空间位置信息的程度远远超过人们的预期。

2 CNNS中的位置信息

CNN自然会在早期卷积阶段尝试提取精细级别的高空间频率细节(例如边缘、纹理、线条),而在编码的最深层,网络产生最丰富的类别特定特征表示(Simonyan&Zisserman,2014;He et al.,2016;Badrinarayanan et al.,2017)。在本文中,我们提出了一个假设,即位置信息隐式编码在提取的特征映射中,并在从视觉场景中分类、检测或分割对象时起着重要作用。因此,我们旨在通过端到端的方式预测来自不同CNN原型的位置信息来证明这一假设。在接下来的部分中,我们首先介绍问题定义,然后简要讨论我们提出的位置编码网络。

问题表述:    给定一个输入图像,我们的目标是预测一个类似梯度的位置信息掩模,其中每个像素值定义了绝对坐标,像素从左到右,从上到下。我们生成类似梯度的掩模(第2.2节)用于我们实验中的监督,基本CNN原型的权重是固定的。

2.1位置编码网络

我们的位置编码网络(PosENet)(见图2)由两个关键组件组成:一个前馈卷积编码器网络和一个简单的位置编码模块。编码器网络从较浅层到较深层提取不同抽象级别的特征。位置编码模块将来自编码器网络的多尺度特征作为输入,并在最后预测绝对位置信息。

编码器:我们使用基于ResNet和VGG的体系结构,通过删除平均池层和分配类别的层来构建编码器网络()。如图2所示,编码器模块由五个特征提取块组成,用(f1ϑ、f2ϑ、f3ϑ、f4ϑ、f5ϑ)表示。从标准网络的底层到顶层提取的多尺度特征用(f1pos、f2pos、f3pos、f4pos、f5pos)表示。我们将关键操作总结如下:

其中Wa表示冻结的权重。∗ 表示卷积运算。注意,在探测编码网络时,只有位置编码模块f_pem被训练成专注于提取位置信息,而编码器网络被强制保持其现有权重。

位置编码模块:    位置编码模块将f_enc的多尺度特征(f1pos、f2pos、f3pos、f4pos、f5pos)作为输入,并通过转换函数T_pos生成所需的位置映射。转换函数Tpos首先在特征图上应用双线性插值操作,使其具有相同的空间维度,从而生成特征图。一旦我们对多尺度特征具有相同的空间维度,我们将它们拼接在一起,然后进行一系列k×k卷积操作。在我们的实验中,我们在{1,3,5,7}之间改变k的值,并且大多数实验是在位置编码模块f_pem中使用单个卷积层进行的。关键操作可概括如下:

式中,是与转换函数T_pos相关的可训练权重。

编码模块的主要目标是验证在分类标签上训练时是否隐式学习位置信息。此外,位置编码模块对隐含的位置信息和梯度状真值掩模之间的关系进行建模。如果特征图中没有编码位置信息,则输出预计为随机输出,反之亦然(忽略图像内容的任何指导)。

2.2    合成数据和真值生成

为了验证网络中位置信息的存在性,我们通过指定一个标准化梯度(如图3所示)位置图作为真值来执行随机化测试(注释1:我们使用梯度一词来表示像素强度,而不是反向传播中的梯度。)。我们首先在水平(H)和垂直(V)方向生成类似梯度的遮罩。同样,我们应用高斯滤波器来设计另一种真值图,高斯分布(G)。生成这三种模式的关键动机是验证模型是否可以学习一个或两个轴上的绝对位置。此外,我们还创建了两种类型的重复模式,水平和垂直条纹(HSVS)。无论方向如何,多级特征中的位置信息都可能通过编码模块fpem的转换进行建模。我们设计的梯度真值可以看作是一种随机标签,因为输入图像和真值之间没有位置相关性。由于位置信息的提取与图像内容无关,因此可以选择任何图像数据集。同时,我们还构建了合成图像来验证我们的假设。

2.3    训练网络

由于我们隐式地希望对来自预训练网络的位置信息进行编码,因此在我们的所有实验中,我们都冻结了编码器网络f_enc。我们的位置编码模块f_pem生成感兴趣的位置图。在训练期间,对于给定的输入图像和相关的真值位置图,我们对施加监督信息(先将其上采样到大小)。然后,我们定义像素均方误差损失,以测量预测和真值位置图之间的差异,如下所示:

其中和(n表示空间分辨率)分别是矢量化的预测位置图和真值图。和分别是和的一个像素。

3    实验

3.1    数据集和评估指标

数据集:

我们使用DUT-S数据集(Wang等人,2017)作为我们的训练集,其中包含10533张训练图像。按照(Zhang et al.,2017;Liu et al.,2018)中使用的通用训练协议,我们在DUT-S训练集上训练模型,并评估PASCAL-S(Li et al.,2014)数据集的自然图像上是否存在位置信息。如第2.2节所述,也使用合成图像(白色、黑色和高斯噪声)。注意,我们遵循显著性检测中使用的公共设置,只是为了确保训练集和测试集之间没有重叠。然而,由于位置信息相对独立于内容,任何图像都可以用于我们的实验。

评估指标:

由于位置编码测量是一个新的方向,因此没有通用的度量标准。我们使用两种不同的自然选择度量(Spearmen相关性(SPC)和平均绝对误差(MAE))来测量位置编码性能。SPC定义为真值和预测位置图之间的斯皮尔曼相关性。为了便于解释,我们将SPC分数保持在[-1,1]范围内。MAE是预测位置图和真值梯度位置图之间的平均像素差异。

3.2    实施细节

我们使用为ImageNet分类任务预训练的网络初始化架构。位置编码分支中的新层通过xavier初始化进行初始化(Glorot&Bengio,2010)。我们使用随机梯度下降法对网络进行了15个阶段的训练,动量为0.9,权重衰减为1e−4.在训练和推理过程中,我们将每个图像的大小调整为224×224的固定大小。由于多层次特征的空间范围不同,我们将所有特征映射对齐为28×28的大小。我们报告如下基线的实验结果:VGG表示PosENet基于从VGG16模型中提取的特征。类似地,ResNet表示ResNet-152和PosENet的组合。PosENet单独表示仅应用PosENet模型直接从输入图像学习位置信息。H、 V、G、HS和VS分别代表五种不同的真值模式:水平和垂直梯度、二维高斯分布、水平和垂直条纹。

3.3    位置信息的存在

预训练模型中的位置信息:

我们首先通过实验验证了在预训练模型中编码的位置信息的存在性。按照相同的协议,我们对基于VGG和ResNet的网络进行每种类型的真值训练,并在表1中报告实验结果。我们还报告了只训练PosENet而不使用任何预训练模型来证明位置信息不是由对象的先验知识驱动的结果。我们的实验并不关注在指标上实现更高的性能,而是验证CNN模型编码了多少位置信息,或者PosENet提取这些信息有多容易。注意,在本实验中,在PosENet中,我们只使用了一个核大小为3×3的卷积层,而没有进行任何填充。

如表1所示,PosENet(VGG和ResNet)可以很容易地从预训练的CNN模型中提取位置信息,尤其是基于ResNet的PosENet模型。然而,单独训练PosENet(PosENet)在不同的模式和源图像中获得更低的分数。这一结果意味着很难单独从输入图像中提取位置信息。PosENet仅在与深度编码器网络耦合时才能提取与真值位置图一致的位置信息。如前所述,鉴于与输入的相关性已被忽略,生成的真值图可被视为一种随机化测试(Zhang等人,2016)。然而,测试集在不同的真值模式上的高性能表明,该模型不是盲目地过度拟合噪声,而是提取真实位置信息。然而,与其他模式相比,我们观察到重复模式(HS和VS)的性能较低,这是由于模型的复杂度,特别是真值和绝对位置之间缺乏相关性(表1的最后两行)。H模式可视为正弦波的四分之一,而条纹模式(HS和VS)可视为正弦波的重复周期,这需要更深入的理解。

图4显示了跨不同模式的几种体系结构的定性结果。我们可以看到与H、G和HS模式对应的预测和真值位置图之间的相关性,这进一步揭示了这些网络中位置信息的存在。定量和定性结果有力地验证了我们的假设,即位置信息隐式编码在每个体系结构中,没有任何明确的监督。

此外,仅PosENet无法根据合成数据输出渐变图。4.1节,我们进一步探讨了图像语义作用。注意到不同体系结构之间的性能差距,特别是基于ResNet的模型比基于VGG16的模型实现了更高的性能。这背后的原因可能是架构中使用了不同的卷积核,或者语义内容的先验知识程度不同。我们将在下一个实验中进行烧蚀研究,以便进一步研究。在本文的其余部分中,我们只关注自然图像、PASCAL-S数据集和三种代表性模式:H、G和HS。

3.4    分析POSENET

在本节中,我们通过强调两个关键的设计选择来进行消融研究,以检查提出的位置编码网络的作用。(1) 改变内核大小在位置编码模块中的作用以及(2)我们添加卷积层的堆栈长度,以从多级特征中提取位置信息。

堆叠层的影响:    表1中的实验结果表明存在从对象分类任务中学习到的位置信息。在本实验中,我们改变了PosENet的设计,以检验是否有可能更准确地提取隐藏位置信息。先前实验(表1)中使用的PosENet只有一个卷积层,其内核大小为3×3。在这里,我们将一组不同长度的卷积层应用于PosENet,并在表2(a)中报告实验结果。尽管堆栈大小不同,但我们的目标是保留一个相对简单的PosENet,只允许有效读取位置信息。如表2所示,我们在堆叠多层时将内核大小固定在3×3。在PosENet中应用更多层可以改善所有网络位置信息的读出。一个原因可能是堆叠多个卷积滤波器允许网络具有更大的有效感受野,例如,两个3×3卷积层在空间上等于一个5×5卷积层(Simonyan&Zisserman,2014)。另一种可能性是,位置信息的表示方式可能需要一阶以上的推断(例如,线性读出)。

不同核大小的影响:    我们仅使用一个具有不同内核大小的卷积层来进一步验证PosENet,并在表2(b)中报告了实验结果。从表2(b)中,我们可以看到,与较小的内核大小相比,较大的内核大小可能捕获更多的位置信息。这一发现意味着位置信息可能在空间上分布在层内和特征空间中,因为更大的感受野可以更好地解析位置信息。(This finding implies that the position information may be distributed spatially within layers and in feature space as a larger receptive field can better resolve position information.)

在图5中,我们进一步展示了不同层数和内核大小对学习位置信息的视觉影响。

3.5    位置信息存储在哪里?

我们以前的实验表明,位置信息是在预训练的CNN模型中编码的。观察位置信息是否均匀分布在各层上也很有趣。在本实验中,我们使用VGG16分别对每个提取的特征f1pos、f2pos、f3pos、f4pos、f5pos进行PosENet训练,以检查哪一层编码了更多的位置信息。与3.3节类似,我们只在F_pem中应用一个3×3核来获得位置图。

如表3所示,与f1pos相比,使用f5pos取得最佳的性能。这可能部分是由于从较深的层相比更浅的层提取了更多的特征图(分别为512和64层)。然而,这很可能表明在网络的最深层中位置信息的编码更强,其中该信息由高级语义共享。我们进一步研究了VGG16的这种效应,其中最上面的两层(f4pos和f5pos)具有相同数量的特征。更有趣的是,f5pos比f4pos获得更好的结果。这一比较表明,更深层次的特征包含更多的位置信息,这验证了顶层视觉特征与全局特征相关联的普遍观点(top level visual featuresare associated with global features.)。

4    位置信息来自哪里?

我们相信边界附近的填充可以提供位置信息以供学习。零填充广泛应用于卷积层,以保持输入和输出的相同空间尺寸,在水平和垂直两个轴的开始和结束处添加许多零。为了验证这一点,我们删除了VGG16中实现的所有填充机制,但仍然使用ImageNet预训练权重初始化模型。请注意,我们仅使用基于VGG的PosENet执行此实验,因为删除ResNet模型上的填充将导致跳连的大小不一致。我们首先测试在VGG中使用零填充,

在PosENet中不使用填充的效果。从表4可以看出,没有零填充的VGG16模型在自然图像上实现的性能远远低于默认设置(padding=1)。类似地,我们通过应用零填充向PosENet引入位置信息。padding=1的PosENet(在帧周围连接一个零)比原始(padding=0)实现更高的性能。当我们设置padding=2时,位置信息的作用更加明显。这也验证了我们在第3.3节中的实验,该实验表明PosENet无法提取明显的位置信息,因为没有应用填充,并且信息是从预训练的CNN模型编码的。这就是为什么我们在之前的实验中没有在PosENet中应用零填充。此外,我们的目标是探索在预训练模型中编码了多少位置信息,而不是直接与PosENet结合。图6示出了,使用高斯模式,零填充编码位置信息的影响。(Fig. 6 illustrates the impact of zero-padding on encoding position information subject to padding using a Gaussian pattern.)

4.1    案例研究

回想一下,位置信息被认为是独立于内容的,但我们在表1中的结果表明,图像中的语义可能会影响位置映射。为了可视化语义的影响,我们使用以下等式计算内容损失热图:

其中,,分别是水平、垂直和高斯模式的预测位置图。

如图7所示,PosENet的热图在各个角落都有较大的内容损失。而VGG和ResNet的损失图更多地与语义内容相关。特别是对于ResNet,对语义内容的深入理解会导致在生成平滑梯度时产生更强的干扰。损失最大的分别是脸、人、猫、飞机和花瓶(从左到右)。这种可视化可以作为显示模型关注哪些区域的替代方法,特别是在ResNet的情况下。

4.2    零填充驱动位置信息

显著性检测:    我们进一步验证了我们在位置相关任务(语义分割和显著目标检测(SOD))中的发现。首先,我们从头开始训练有零填充和无零填充的VGG网络,以验证零填充提供的位置信息是否对检测显著区域至关重要。对于这些实验,我们使用公开的MSRA数据集(Cheng等人,2015)作为我们的SOD训练集,并在其他三个数据集(ECSSD、PASCAL-S和DUT-OMRON)上进行评估。从表5(a)中,我们可以看到,没有填充的VGG在两个指标(F-measure和MAE)上都取得了更差的结果,这进一步验证了我们的发现,即零填充是位置信息的关键来源。

语义分割:    我们还验证了零填充对语义分割任务的影响。我们在PASCAL VOC 2012数据集的训练集上训练有零填充和无零填充的VGG16网络,并在验证集上进行评估。与SOD类似,零填充模型的性能明显优于无填充模型。

我们相信,在这两项任务上预训练的CNN模型比分类任务能学到更多的位置信息。为了验证这一假设,我们将在ImageNet上预训练的VGG模型作为基线。同时,我们从零开始训练了两个用于语义分割和显著性检测的VGG模型,分别表示为VGG-SS和VGG-SOD。然后,我们按照第3.3节中使用的协议对这三个VGG模型进行微调。从表6中,我们可以看到VGG-SS和VGG-SOD模型的性能大大优于VGG。这些实验进一步揭示了零填充策略在位置相关任务中起着重要作用,这一观察在视觉问题的神经网络解决方案中长期被忽略。

注:表格中的指标是衡量位置信息的指标,而不是显著性检测或语义分割的指标

5    结论

本文探讨了卷积神经网络中绝对位置信息隐式编码的假设。实验表明,位置信息在很大程度上是可用的。更详细的实验表明,更大的感受野或位置信息的非线性读出进一步增强了绝对位置的读出,从一个简单的单层3×3 PosENet中已经非常强大。实验还表明,当不存在语义线索时,这种恢复是可能的,并且来自语义信息的干扰表明对what(语义特征)和where(绝对位置)进行联合编码。结果表明,零填充和边界作为锚定,空间信息从中衍生出来,并随着空间特征提取的发生最终传播到整个图像(zero padding and borders as an anchor from which spatial information is derived and eventually propagated over the whole image as spatial abstraction occurs )。这些结果证明了CNN的一个基本特性,这是迄今为止未知的,需要进一步探索。







Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs

在本文中,我们挑战了一个普遍的假设,即通过全局合并将卷积神经网络(CNN)中的三维(空间通道)张量的空间维度压缩为一个向量会删除所有空间信息。具体来说,我们证明了位置信息是基于通道维度的顺序编码的,而语义信息在很大程度上不是。在本演示之后,我们通过将这些发现应用于两个应用程序来展示它们对现实世界的影响。首先,我们提出了一种简单而有效的数据增强策略和损失函数,以提高CNN输出的平移不变性。其次,我们提出了一种方法来有效地确定潜在表示中的哪些通道负责(i)编码总体位置信息或(ii)区域特定位置。我们首先表明,语义分割在很大程度上依赖于整体位置通道来进行预测。然后,我们第一次展示了有可能执行“特定于区域”的攻击,并在输入的特定部分降低网络的性能。我们相信,我们的发现和演示的应用将有助于了解CNN特征的相关研究领域。

https://github.com/islamamirul/PermuteNet

1.介绍

不同神经网络结构背后的一个基本思想[13,29,30,3,12]是不变性。给定一个输入信号,X-不变操作是一种产生相同输出的操作,而不管输入的任何变化(某些类型的X)。这种特性在计算机视觉的许多应用中都是可取的,最明显的是物体识别[21,13,29];目标是分配相应的图像级别标签(例如,dog),无论对象位于图像中的何处。这被称为平移不变性。与平移不变性密切相关的运算的另一个特性是平移等变性:移动输入,然后通过运算传递输入,等同于通过运算传递输入,然后移动信号。

为了实现不变的神经网络,一种常见的策略是在每层基础上使用等变运算[6],然后以不变的输出为顶点。其中一个最好的例子是用于图像分类的卷积神经网络(CNN)。CNN遵循平移等变卷积层的层次结构,使用全局池化将3D(空间通道)张量转换为1D向量,然后将其送入完全连接的层以生成分类逻辑。因此,我们(直观地)假设,由于全局池操作[22,30],空间维度被折叠后,空间信息应该被移除,同时产生平移不变性。然而,之前的工作表明,绝对位置信息存在于潜在表示[14]以及网络输出[18,16]中。

这些以前的工作都没有回答一个关键问题:如果前向通道中存在全局池化,CNN如何在表示中包含位置信息?在本文中,我们给出了这个问题的答案,并通过严格的定量实验证明CNN通过沿通道维度编码位置信息来实现这一点,即使空间维度是折叠的。此外,我们还证明了位置信息是基于通道维度的顺序编码的,而语义信息在很大程度上是不变性的。我们认为,这些发现对于更好地理解CNN的特性和指导其未来的设计非常重要。

为了证明这些发现对现实世界的影响,我们利用了位置信息在许多领域和应用程序中按通道编码的事实。首先,我们解决了CNN缺乏平移不变性的问题。我们提出了一个简单而有效的损失函数,该函数最小化平移图像编码之间的距离,以实现更高的平移不变性。其次,我们提出了一种有效的方法来识别潜在表示中的哪些通道负责编码(i)整个图像中的位置信息和(ii)“区域特定”位置信息(例如,激活图像左侧部分的通道)。我们展示了定量和定性的证据,表明与随机抽样的通道相比,网络在进行预测时对这些通道具有显著的依赖性。最后,我们展示了靶向特定区域的神经元,并损害图像特定部分的性能是可能的。总而言之,我们的主要贡献如下:

•我们揭示了全局池化如何通过沿通道维度的有序编码来接纳空间信息。然后,我们将这一发现应用于下面列表中的问题领域,以证明其在现实世界中的适用性。

•我们提出了一种简单的数据增强策略,通过最小化平移图像编码之间的距离来提高CNN的平移不变性。

•我们提出了一种简单直观的技术来识别网络潜在表征中的位置特异性神经元。我们发现,多个复杂的网络包含对这些位置编码神经元做出正确预测的重大依赖。

•我们展示了以特定于区域的方式攻击网络预测的可能性,并在标准自驱动语义分割数据集上展示了该方法的有效性。

2.相关工作

Islam等人[14]首先证明了绝对位置信息是在CNN的潜在表征中捕获的。更具体地说,他们用一个预先训练好的CNN,然后训练一个读出模块来预测一个类似梯度的位置图。他们表明,绝对位置信息(例如,像素坐标)可以从CNN的许多阶段中提取,零填充是该信息被编码的一个重要原因。零填充注入位置信息的能力一直是多个后续工作的重点领域[18,1,16,23,24]。Kayhan等人[18]证明了与零填充和位置信息有关的许多属性,包括样本效率和对分布外位置的泛化。注意,pad[1]探讨了零填充与对象识别的关系,并证明它会在中间表示中造成严重的伪影。最后,Islam等人[16]对边界启发法进行了大规模案例研究,包括填充和画布颜色,并表明位置信息可能会影响(例如纹理识别[5])或帮助(例如语义分割和实例分割[32])性能,具体取决于任务。相对位置信息是指特征在图像中相互之间的位置。在计算机视觉算法设计中如何使用相对位置的一个例子是胶囊网络[28],它用姿势(即平移和旋转)对每个对象进行编码。这种编码会导致后面的图层特征,这些特征仅针对早期图层的特定相对位置激活。我们将相对位置信息视为与绝对位置不同的研究方向,因此本文仅对绝对位置进行分析。

Gatys等人[10]首先在脚注中提到了CNN潜在表示中的绝对位置,该脚注评论了零填充如何影响生成性建模。最近的一项研究更深入、更系统地探讨了生成模型中的零填充,并表明CNN使用零填充生成更稳健的空间结构[33]。

最近的一些研究表明CNN并不是完全平移不变的。例如,BlurPool[34]证明,输入中的小像素级偏移会导致输出分类概率的大波动。为了使CNN对平移更具不变性,他们建议在CNN内的每个maxpooling层之后添加一个高斯模糊层,这显著提高了网络的平移不变性。Zou等人[35]通过使用内容感知学习滤波器权值扩展了这项工作,学习滤波器权值预测输入中每个空间和通道位置的单独滤波器权值。虽然提出的解决方案是有效的,但BlurPool[34]并未解释CNN为什么不是平移不变性的根本机制。在我们的论文中,我们通过第一次解释允许CNN编码位置信息的精确机制(尽管存在全局池化),扩展了先前表明CNN中存在位置信息的工作。

3.CNNs中的通道位置编码

最近的工作[14,18,1,16]表明CNN利用绝对位置信息。然而,没有任何工作确定位置信息在全局平均池(GAP)层之后编码的机制。鉴于位置信息的明显重要性,人们可能会提出这样一个问题:空间信息是否通过某种方式被保留。在本节中,我们将通过一系列实验来回答这个有趣的问题。我们表明,尽管空间维度被压缩,但绝对位置信息可以在1×1×C潜在表示中,在全局池化之后对通道进行编码。

3.1. 使用GAP层学习位置

现有的K类对象识别网络[22,30,13]大体上遵循类似的结构,包括特征编码器网络和分类器。给定一个输入图像,我∈ rh×w×3,编码器网络fθ将h×w×3输入映射到潜在表示z∈ h0×w0×c,其中h0

为了证明GAP操作可以保留对象的绝对位置信息,我们设计了两种网络结构,我们称之为GAPNet和PermuteNet(见图1)。GAPNet遵循与标准CNN(例如,ResNet-18[13]和NIN[22])相似的结构进行对象识别,只是我们移除了最后一个完全连接的层,这样网络的最后一层就是GAP层。为了确保GAP层输出正确的类数K,我们将最后一个卷积层(即GAP层之前的层)的输出通道数设置为K。形式上,最后一个卷积层采用潜在表示形式z∈ h0×w0×c作为输入,输出一个表示,z0∈ h0×w0×K。移除全连接层的直观方法是使GAP层能够预测类逻辑。因此,GAP层的输出大小将与分类逻辑相同,并可用作网络的最后一层(见图1)。

除了GAP层和倒数第二个线性层之间发生的单个洗牌操作外,PermuteNet还遵循标准对象分类网络的结构。该操作随机洗牌GAP层表示的通道索引,然后将其传递给线性层进行分类(参见图1右侧)。请注意,我们构造GAPNet是为了清楚地证明GAP层的输出可以直接映射到输入中的特定绝对位置。我们设计了一个置换网络,表明随机洗牌通道顺序会阻碍网络对位置信息进行编码的能力。

3.2. 通道位置编码的评价

为了验证通道位置编码的存在性,我们使用GAPNet和PermuteNet设计了一个简单的位置相关任务,这样输出logit可以直接映射到输入图像中的特定位置。受先前工作[18,16]的启发,我们首先进行了位置分类实验,其中每个输入是放置在n×n网格上的CIFAR-10[20]图像,其中不包含图像的每个像素都设置为零(参见图1中的输入)。每个输入的目标是放置图像补丁的位置(例如,图1中给定输入的目标是6)。我们使用ResNet-18[13]体系结构来报告GAPNet和PermuteNet在三种不同填充类型下的实验结果。对于位置分类任务,我们以0.001的学习率对GAPNet和PermuteNet进行了20个阶段的训练,并使用ADAM优化器[19]。输出登录的数量设置为输入位置的数量(例如,9×9网格为81)。我们还使用基于网格的数据设置,通过将GAPNet和PermuteNet的输出逻辑数都更改为10,来训练目标识别网络。对于位置相关的目标分类任务,我们对GAPNet和PermuteNet进行了100个历元的训练,学习率为0.01。

后果

我们在表1中给出了GAPNet和PermuteNet的位置分类和对象识别结果。对于位置分类任务,GAPNet对于所有测试的网格大小实现了反直觉的100%精度。很明显,GAP层可以接受稳健的位置信息,直接表示输入图像上的绝对位置。相比之下,虽然PermuteNet可以学习识别小网格大小(例如,3×3)的边缘位置数,但通道维度的洗牌会随着网格大小的增加显著降低网络执行位置分类的能力。这提供了直接证据,表明通道尺寸的顺序是允许GAP层接受绝对位置信息的主要表示能力。我们使用类似的数据设置进一步评估图像识别任务的GAPNet和PermuteNet,并在表1(右)中报告结果。有趣的是,与位置分类任务不同,PermuteNet可以实现接近GAPNet的分类性能。这揭示了CNN用于位置表示和语义表示的编码类型之间的一个有趣的二分法:位置信息主要取决于通道的顺序,而语义信息则不依赖。

我们在这些实验中表明,GAP层可以通过通道尺寸的排序来接受位置信息。我们探讨的另一个有趣的问题是,有多少位置信息可以从预先训练的模型中解码,而这些模型并没有针对位置分类进行明确训练。为了回答这个问题,我们提供了更多的补充实验,并评估了为各种任务(如图像分类[13]和语义分割[26])训练的网络的通道或顺序中包含的位置信息量。为了进一步支持我们的假设,这些结果也明确地表明GAPNet可以恢复空间位置信息,而PermuteNet不能。

4.通道位置编码的适用性

现在,我们演示了多种方法,可以利用我们的发现,即位置信息是按通道编码的。为了确保通道编码是这些应用中每种应用的改进来源,我们在每种情况下通过GAP层后使用表示。首先,我们提出了一个简单的损失函数来提高CNN中的平移不变性。接下来,我们将探讨对象识别网络的鲁棒性。我们演示了使用隐式位置编码(即作为对手)针对这些模型的不同方法,以提高整体性能和针对特定区域的攻击。

4.1. 目标识别中的平移不变性

我们首先解决CNN不是平移不变的问题。更具体地说,最近的工作[34]表明,输入中的小位移可能导致输出类可能性的大位移,并提出了BlurPool[34],它将高斯核应用于网络的每个池化。学习平移不变表示。

一个真正的移位不变网络应该产生相同的输出逻辑,而不管它的移位(即,一只猫是一只猫,不管它在图像中的位置如何)。假设位置信息编码在输出logits之前的潜在表示中(即,GAP层之后但线性层之前的表示),我们建议最小化同一图像的不同偏移之间在该表示中的差异。整个培训流程如图2所示。给定相同图像的两个不同作物,表示为xi1和xi2,其中i是图像索引,下标表示不同作物,我们将这些图像通过相同的编码器网络fθ馈送,并在GAP层之后获得潜在表示,zi1和zi2。我们使用均方误差(MSE)作为损失项,通过最小化潜在表示之间的距离使其具有平移不变性。然后通过预测层Sθ传递潜在表示,该预测层分别生成类logit y1和y2。我们分别在{y1,yˆ}和{y2,yˆ}之间应用两个交叉熵损失,`1和`2,其中yˆ是对象类。我们的总体损失函数LAugShift被定义为:

其中λ指控制MSE损失贡献的损失重量。

平移不变性和精确性。

为了验证我们提出的培训策略的有效性,我们展示了CIFAR-10[20]、CIFAR-100[20]和ImageNet[8]数据集的总体性能和班次一致性结果。我们采用与前面[34]提出的相同的一致性(Cons.)度量来度量平移不变性。更具体地说,我们测量输入图像垂直和水平移动随机数像素后,网络预测同一类别的频率:CIFAR最多8个像素(Cons.8),ImageNet最多8或16个像素(Cons.16)(附加移动幅度的结果在补充报告中报告)。

分类和一致性结果如表2所示。与基线相比,我们的方法在CIFAR-10上实现了具有竞争力的Top-1精度,但在移动一致性方面显著优于基线(94.8%对90.8%).我们的方法与CIFAR-100的总体分类精度相匹配,同时显著提高了移位一致性(85.6%对70.1%)。请注意,我们的方法比CIFAR数据集上的BlurPool具有更高的移位一致性。与ResNet基线相比,我们的方法提高了ImageNet上的整体性能和移位一致性,并且在性能和一致性方面与[34]保持竞争力。我们相信性能差距较小(对于AugShift和BlurPool来说也是如此)适用于具有高分辨率的大型数据集(例如ImageNet),因为网络可以从数据中学习一定程度的平移不变性,而无需任何不变性特定正则化。请注意[34]必须通过在每个池化添加另一个过滤器来修改CNN体系结构中的大多数层,从而在推理时增加额外的计算。相比之下,我们的体系结构不可知,在推理过程中不会增加计算开销。此外,我们实现平移不变性的动机与模糊池不同(即,加强通道位置信息与抗锯齿的相似性),因此这两种技术可以是互补的

4.2.攻击位置编码通道

我们现在的目标是证明为基于位置的任务训练的复杂网络,如语义分割[3,17],在其潜在表征中显著依赖于位置信息编码的通道。为了执行这种类型的攻击,我们首先提出了一种简单直观的技术来估计CNN潜在表征中的位置编码神经元。该技术的简单修改允许我们识别ich主要编码:(i)总体位置或(ii)区域特定位置。然后,我们通过简单地在推理过程中关闭这些神经元来评估网络对它们进行预测的依赖性。我们表明,移除这些神经元对性能造成的损害明显大于随机抽样神经元。这表明位置信息的重要编码包含在此外,我们还展示了对训练用于自主驾驶任务的网络执行特定于区域的攻击的可行性。这些结果表明,在更复杂的网络和任务中存在通道位置编码,并揭示了基于位置的对抗性攻击和防御的有趣未来方向信息

4.2.1识别位置特异性神经元

整体位置编码通道。

我们的第一个目标是识别编码图像中物体整体位置的网络潜在表示中的通道。一种简单直观的估计编码整体位置信息的神经元的方法是计算两个图像潜在表示激活之间的绝对差翻转图像对。我们方法的关键直觉是,给定一个网络,该网络编码两个语义相同但对象位置不同的图像,激活的小变化通道对位置不变,而激活的大变化通道编码位置信息。更多形式y、 给定一个像素级任务(例如语义分割)的预训练编码器,f(I)=z,

z在哪里∈ r1×1×C是穿过GAP层后的潜在表示,我们的目标是估计和排列z中最具位置特异性的神经元。对于给定的图像Ia,我们只需在Ia上应用水平翻转来获得翻转图像Ib。请注意,此图像对之间唯一不同的语义因素是绝对位置然后我们把这些图像输入一个预训练的网络,得到潜在的表示,{za,zb}。最后,我们计算绝对差|∆zi |=| z a i− z b i |在这两个潜在表示之间,其中i表示来自数据集的样本索引|∆zi |表示

4.2.1识别位置特异性神经元

整体位置编码通道。

我们的第一个目标是识别网络潜在表示中的通道,该网络编码图像中对象的整体位置。一种简单直观的估计编码整体位置信息的神经元的方法是计算水平翻转图像对的两个潜在表示激活之间的绝对差异。我们的方法的关键直觉是,给定一个编码语义相同但对象位置不同的两个图像的网络,激活发生微小变化的通道对位置不变,而激活发生较大变化的通道编码位置信息。更正式地说,给定用于像素级任务(例如语义分割)的预训练编码器,f(I)=z,

z在哪里∈ r1×1×C是通过GAP层后的一种潜在表征,我们的目标是估计和排列z中最具位置特异性的神经元。对于给定的图像Ia,我们只需在Ia上应用水平翻转来获得翻转后的图像Ib。请注意,此图像对之间唯一不同的语义因素是对象的绝对位置。然后,我们将这些图像馈送到预训练网络,以获得潜在表示,{za,zb}。最后,我们计算绝对差|∆zi |=| z a i− z b i |在这两个潜在表示之间,其中i表示来自数据集的样本索引。我们计算|∆zi |对于城市景观[7]验证集中的所有图像,i,并平均差异,以获得每个神经元的位置编码分数。最后,我们将神经元按降序排列,以获得整体位置特异性神经元的有序列表zˆ∈ r1×1×C,其中第一个元素具有最高的位置编码量,而最后一个元素具有最大的位置不变性。我们可以将zˆ形式化如下:

有人可能会说,水平翻转的输入即使不考虑位置信息也会给网络带来差异,因为卷积核可能是不对称的[1]。为了进一步证明我们的排名策略,我们还将整体位置编码通道分为两种设置。内核翻转∗ : 我们将一个图像及其翻转版本(等式2)传递给一个具有翻转内核的预训练模型,内核翻转∗∗: 我们将原始图像传递给两个预训练的模型,有翻转的核和没有翻转的核,并使用激活差异,使用公式2对神经元进行排序。

区域特定频道。

与等式2相比,等式2将通道激活中的任何变化视为水平翻转图像作为其编码位置信息的指示,我们现在的目标是基于特定图像区域的编码位置来识别和排列通道。因此,我们感兴趣的是当一个物体处于特定位置时高度激活的通道,而在其他位置时激活率较低。为此,我们从Cityperson[7]验证集中创建了两个数据子集:行人仅位于图像左半部分(val left)的图像和行人仅位于图像右半部分(val right)(见图3).如果我们想要识别对图像左半部分的对象进行编码的通道,我们将val left的图像Ia及其对应的翻转图像Ib通过网络,并在GAP层之后获取两个潜在表示的符号差。根据平均激活差ov对通道进行排序后在val left数据集中,我们现在可以识别左侧行人特别激活的通道。更具体地说,我们可以计算左侧区域特异性神经元的有序列表,zˆl∈ R 1×1×C,具有以下等式:

我们可以简单地通过网络传递val right,然后遵循上面概述的相同程序,轻松计算出右区域特定神经元zˆr的有序列表。请注意,这两个程序都使用了这样的假设,即在GAP层之后通道的有序允许位置信息,包括整体和区域特定信息C

4.2.2定位整体位置编码神经元

语义分割。

我们首先验证前N个整体位置编码通道如何影响最先进的语义分段网络DeepLabv3-ResNet-50[4]的性能[15],该网络是在Cityscapes[7]数据集上训练的。本次评估的目的是通过测量验证性能的差异来确定DeepLabv3-ResNet-50在语义分割中对这些全局位置编码通道的依赖程度,该差异是在移除前N个位置特定通道后,通过联合的平均交集(mIoU)来测量的。我们通过简单地将这些通道维度的特征激活设置为零,将这些N个神经元从潜在表征中移除。除了标准的mIoU外,我们的目的是评估这些神经元是否对所有位置都有同等的影响。为此,我们还评估了三个输入区域的性能:图像的左、中或右区域。为了执行此评估,我们只需通过将其他像素设置为未标记值(参见图3的示例),计算左、中或右区域上的联合平均交点(mIoU)。请注意,每个区域(即,左、右和中心)的空间分辨率为1024×1024像素,因为城市景观图像的宽度为2048像素(请注意,中心与左右两侧相等重叠)。在这些实验中,我们对Cityscapes数据集的val分割进行验证。

后果

图4显示了当前N个总体位置特定频道设置为零时,城市景观上的DeepLabv3-ResNet-50在mIoU方面的语义分割结果。注意,对于这个实验,我们没有微调预训练的分割网络。有趣的是,我们观察到,从城市景观预训练的DeepLabv3-ResNet-50(基线性能为74.0%mIoU)模型中逐渐移除位置特异性神经元对整体mIoU的伤害(图4(a))明显大于移除随机选择的神经元(注意,“正常”是指使用等式2选择的神经元,而不翻转内核)。对于位置特异性神经元,移除前100个通道的性能为71.9%,而100个随机神经元的性能仅下降到73.4%。移除更多神经元时,差异更为显著。例如,移除500个位置特异性通道的性能为64.7%mIoU,比ba下降9.3%seline为74.0%,而500个随机通道的性能仅下降3.5%至70.5%mIoU。当使用内核翻转排名移除神经元时,类似的模式被视为移除这些神经元比移除随机神经元更严重地降低性能。

这些结果清楚地表明,网络依赖于潜在表征中的通道位置编码来进行准确的语义分段预测。注意,删除100个位置编码神经元(下降2.1%)会降低性能对于DeepLabv3-ResNet-50网络,潜在维度z的大小为2048,这一点非常重要。这一发现对于图像中的所有位置都是一致的。图4(b、c、d)显示了左、右和中心区域的mIoU(如图3所示).对于每个区域,与针对随机神经元相比,针对通过通道排序策略获得的位置神经元时,性能下降更多。图4(底行)当我们只移除排名中的100个神经元时,绘制图像每个部分的结果。这些结果还表明,通常移除排名较高的神经元比移除排名较低的神经元更能降低mIoU。总的来说,这些结果提供了强有力的证据,证明使用等式2的排名通道编码了整体图像位置。注意由于自动驾驶数据集中心区域中的像素与距离摄像机较远的对象关联,因此较难准确分类,因此中心区域的基线精度较低,因此性能下降也较低。

图5提供了移除N个特定神经元时城市景观验证图像的定性结果。很明显,随着N的增加,分割质量逐渐下降。注意,在我们的神经元特定目标中,分割左侧或右侧边缘较小和较薄对象的失败尤其明显我们还验证了前N个整体位置编码通道如何影响行人检测网络的性能,并在补充报告中报告了结果。

4.2.3针对特定区域的通道

语义分割。

我们现在提供的证据表明,对于完全卷积神经网络,在特定的输入区域,可能会损害性能。我们再次选择DeepLabv3-ResNet-50[4]语义分段网络,该网络在Cityscapes[7]数据集上进行训练。我们使用等式3中的有符号排名以及val left和valright子集来获得特定于区域的位置编码方面的通道排名。作为动机,我们扮演对手的角色,意图造成高速碰撞。由于城市景观[7]数据集是在德国收集的,汽车行驶在道路的右侧。因此,迎面而来的车辆出现在图像的左侧。我们的主要动机是暴露更细粒度的区域特定攻击的可能性,我们使用驱动数据集作为测试用例。在某些情况下,对手可能希望降低感兴趣区域的绩效,同时尽量减少暴露的机会。我们使用第节中描述的通道定位技术,在图像的左半部分确定语义分割性能。4.2.1.

图6显示了mIoU方面的验证结果,其中在评估期间仅考虑图像的左半部分(参见图3,例如地面真值分割图),前N个通道设置为零。我们的假设预测,左目标曲线应低于右目标曲线,因为左编码通道对左半部分mIoU的伤害应大于右编码通道。正如预期的那样,与其他通道相比,我们确定为编码“左”的通道预测在左半mIoU计算中的性能下降更大。有趣的是,“整体”位置通道的性能下降幅度仅次于“右”位置通道。这进一步证明了这些通道确实捕获了图像中特定区域中的对象,因为与“左”和“整体”位置通道相比,“左”和“右”通道之间的重叠更少。还要注意的是,即使将10个神经元归零,性能分别下降0.6%和0.08%,左通道和右通道之间的mIoU差异(虽然很小)。随着更多捕捉左侧对象的通道被移除,这种差异会增大。补充资料中包含了图像右半部分的等效攻击结果,与左半部分的结果一致。

5.结论

我们第一次展示了具有全局平均池化的CNN是如何容纳绝对位置信息的,它可以折叠空间维度。此外,我们还表明位置信息是基于通道的顺序编码的,而语义信息在很大程度上不是。然后,我们将这些发现应用到各种实际应用中。我们提出了一个目标函数,以提高目标识别训练CNN的平移不变性。我们介绍了一种简单直观的技术来识别和排列CNN潜在表征中的位置编码神经元。我们表明,这种技术可以识别主要编码输入中(i)全局位置或(ii)区域特定位置的通道。关于全局位置通道,我们表明,与其他基线相比,在经过语义分割和对象识别训练的网络中抑制它们的响应会导致更大的性能下降,这表明这些CNN显著依赖于通道位置编码。最后,我们展示了细粒度敌对攻击的可能性,该攻击旨在损害特定位置网络的性能。所有这些实验都是在一个全局平均池化展示了在许多神经网络结构中通道顺序中包含的丰富位置信息之后,通过操纵潜在表示来执行的。我们相信这些发现和相关应用可以帮助指导神经网络的未来设计,以包含手头任务的正确归纳偏差。

致谢。我们衷心感谢加拿大NSERC发现补助金和Vector Institute研究生附属奖的财政支持。K.G.D.以约克大学副教授的个人身份为这项工作做出了贡献。我们感谢英伟达公司通过他们的学术计划提供GPU。

S1。从预训练模型解码绝对位置

我们已经在第二节中展示了。3全局平均池(GAP)层可以通过通道维度的排序来接受绝对位置信息。现在,我们探讨了从各种未明确训练用于位置分类的预训练模型中可以解码多少绝对位置信息。我们首先探索了ImageNet[8]预训练的ResNet-18模型[13],fenc。作为输入,我们使用第节中描述的相同图像。主手稿第3页:我们将CIFAR-10[20]图像放置在黑色画布上的某个位置(注意,该位置与其他位置没有重叠),其中每个位置都有一个唯一的索引(参见主手稿中的图1以获取视觉示例)。我们将这个基于网格的输入图像I馈送到fenc,并获得潜在表示z。接下来,我们在z上应用1×1卷积来产生一个表示,z0,它具有与分类logit数相同的通道维度数。然后,我们应用压缩空间维度的GAP操作,得到最终的分类逻辑,yˆ。请注意,我们冻结了分类网络,因为我们感兴趣的是验证预训练图像分类模型的潜在表示可以解码多少绝对位置。我们可以将操作形式化,如下所示:

我们还从为PASCAL VOC 2012数据集上的语义分割任务而训练的ResNet-18模型的潜在表示中解码绝对位置信息[9]。采用与上述相同的方法,在潜在表示z上使用简单的1×1卷积,然后使用GAP层输出位置类的数量。

我们在图S1中提供了图像分类和语义分割预训练模型的位置分类结果。这些结果与Sec中的结果一致。并进一步明确证明CNN频道中包含丰富的位置信息。此外,如应用洗牌操作(洗牌网络)时性能下降所示,该信息基于通道的顺序。

S2。平移不变性结果

在主要手稿的表2中,我们给出了各种网络的移位一致性结果。我们在图S2中显示了额外的移位一致性结果。我们比较了三个网络,一个标准的ResNet-50[13],一个带有BlurPool-k2的ResNet-50[34],以及我们的AugShift方法。注意,我们在ImageNet上训练每个模型,并使用验证集验证像素移位的一致性={8、16、32、40、48、64}。与BlurPool相比,我们的方法始终优于ResNet-50基线,并显示出一种有用的辅助策略。

S3。针对特定区域的通道

以秒计。4.2.2在主要手稿中,我们已经证明,CNN潜在表示中的特定通道可能对图像中包含的特定区域进行编码,此外,抑制这些激活可能会损害图像中特定区域的性能。现在,我们展示了当左编码或右编码通道被抑制时,图像左半部分和右半部分之间性能差异的总体比较,即联合平均交集(mIoU)。图S3显示了当右编码通道关闭时,对城市景观[7]验证图像的左半部分和右半部分进行评估时,mIoU的变化。正如预期的那样,我们在图像的右半部分看到了适度但持续的性能下降。图S4显示了相同的结果,但以左侧编码通道为目标。与右编码通道类似,我们看到图像左半部分的性能有适度但一致的下降。

S4。针对行人检测网络

我们感兴趣的是位置特异性神经元对于以对象为中心的位置依赖性任务是否重要。我们的假设是,移除位置特异性神经元可能比移除随机神经元更损害检测性能,因为位置是成功检测场景中对象的重要因素。为此,我们现在针对在CityPerson[7]数据集上训练的行人检测模型的整体位置特定通道。CityPerson数据集基于Cityscapes[7],但仅使用人员类别的边界框注释,用于行人检测任务。我们选择了以下三种最近在CityPerson上培训的行人检测模型(见[11]):(i)更快的RCNN[27](ii)带有HRNet[31]主干的级联RCNN[2],以及(iii)CSP-ResNet-50[25]。与Sec中的实验相似。4.2.2,我们识别前N个整体位置编码通道(使用等式2),并在将潜在表示传递给检测头之前移除这些尺寸。

表S1显示了从CityPerson上训练的行人检测模型中移除前100个位置特定神经元时的行人检测结果(我们选择N=100,因为所用网络的潜在维度相对较小(例如,HRNet[31])。请注意,我们遵循标准基准度量平均平均精度(mAP),以报告四种不同设置下的检测结果。结果与语义分割结果一致(第4.2.2节):移除前100个位置编码通道比选择100个随机神经元更会降低性能。例如,对于更快的RCNN网络,定位位置编码神经元会降低4.02%的性能,而定位随机神经元会降低1.58%。

你可能感兴趣的:(卷积的位置信息)