卷积的位置信息(更新版)

Position, Padding and Predictions: A Deeper Look at Position Information in CNNs

https://arxiv.org/pdf/2101.12322.pdf

2021.1

这是作者那篇ICLR2020的扩充版

另外,作者在ICLR也投了一版更更新的:https://openreview.net/pdf?id=M4qXqdw3xC

与全连接网络相比,卷积神经网络(CNN)通过学习与有限空间范围的局部滤波器相关的权值来实现效率。这意味着滤波器可能知道它在看什么,但不知道它在图像中的位置。在本文中,我们首先检验了这一假设,并揭示了在常用的CNN中编码了令人惊讶的绝对位置信息。我们发现,零填充驱动CNN在其内部表示中编码位置信息,而填充的缺乏阻止了位置编码。这就产生了关于位置信息在CNN中的作用的更深层次的问题:(i)什么样的边界启发式算法能够为下游任务实现最佳位置编码?;(ii)位置编码是否影响语义表征的学习?;(iii)位置编码是否总能提高性能?为了提供答案,我们对填充和边界启发式在CNN中的作用进行了迄今为止最大的案例研究。我们设计了新颖的任务,使我们能够将边界效应量化为到边界距离的函数。许多语义目标揭示了边界对语义表示的影响。最后,我们展示了这些发现对多个实际任务的影响,以表明位置信息既可以帮助也可以伤害性能。

1    引言

CNN成功完成视觉任务的主要直觉之一,如图像分类[1]、[2]、[3]、[4]、视频分类[5]、[6]、[7]、目标检测[8]、[9]、[10]、生成图像模型[11]、语义分割[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]和显著性检测[22]、[23]、[24]、[25],[26], [27],即卷积是平移等变的。这为神经网络增加了视觉归纳偏置,该网络假设对象可以出现在图像中的任何位置。因此,CNN被认为是空间不可知的。然而,直到最近(until recently),还不清楚CNN是否编码了任何绝对空间信息,绝对空间信息在一些任务中(相关于对象在图像中的位置的视觉任务,例如语义分割和显著对象检测)可能是重要的。例如,在检测裁剪图像的显著性时,即使视觉特征没有改变,最显著区域也会移动。如图1所示,由[28]确定的为最显著的区域倾向于接近图像的中心。鉴于CNN滤波器的有限空间范围,这有点令人惊讶。在本文中,我们首先通过执行一系列随机试验(randomization tests)来检验绝对位置信息的作用,假设CNN可能确实学习编码位置信息来做决策。我们的实验表明,位置信息是通过常用的填充操作(零填充)隐式学习的。填充通常用于适应图像的有限域( accommodate the finite domain of images),并允许卷积核的支持扩展到图像的边界之外,并减少边界效果的影响[29]、[30]、[31]、[32]、[33]尤其是零填充在卷积运算中被广泛用于保持维数不变,但其在表征学习中的隐藏效应一直被忽视。

最近的研究[34],[35]还表明,零填充允许CNN编码绝对位置信息,尽管其架构中存在池化层(例如,全局平均池)在我们的工作中,我们认为边界效应和绝对位置信息之间的关系超出了零填充的范围,并且对CNN编码自信和准确语义表示的能力具有重大影响(见图2).(the relationship between boundary effects and absolute position information extends beyond zero padding and has major implications in a CNN’s ability to encode confident and accurate semantic representations (see Fig. 2))我们的工作有助于更好地理解CNN中所学特征的性质,即填充使用和位置编码之间的相互作用,并强调重要的观察结果和未来研究的富有成果的方向。

图2。边框颜色和填充如何更改边框效果的图示。我们将CIFAR-10图像随机放置在0(黑色)或1(白色)的画布上。我们评估一个经过训练的带/或不带填充的语义分割的ResNet-18是否可以分割图像区域。令人惊讶的是,当使用零填充或黑色画布时,性能会得到改善,这意味着可以利用边界启发法中的位置信息来减少边界效应。.Colormap is ‘viridis;黄色是高置信度。

另一个与边界效果相关的未开发领域是使用带有图像块的画布(即背景)(见图2,顶行)。当在涉及CNN的深度学习管道中使用图像修补程序时,由于图像必须是矩形的限制,用户需要将修补程序粘贴到画布上。画布已被广泛应用于各种领域,如图像生成[36]、[37]、数据增广[38]、图像修复[39]、[40]和可解释人工智能[41],[42]。据我们所知,我们首先分析画布值选择与绝对位置信息之间的关系。在其他作品中,画布值只是以临时方式选择的,没有考虑可能的下游影响。

鉴于CNN在众多应用中的普遍性,充分了解这些网络中的内部表示编码是什么,并找出学习这些表示的确切原因是至关重要的。这种理解还允许有效设计克服公认缺点的架构(例如,消失梯度问题的残差连接[43])。由于CNN中的边界效应和位置信息在很大程度上还没有完全理解,我们旨在为揭示这些现象基本性质的以下假设提供答案:

假设一:零填充编码最大绝对位置信息:

与其他填充类型相比,零填充是否编码最大位置信息?我们评估了使用不同填充类型训练的网络中的位置信息量,结果表明零填充比常见填充类型(如反射、复制和循环)注入更多的位置信息。

假设二:不同的画布颜色会影响性能:

不同的背景值对性能有影响吗?如果边界处的填充值对网络中包含的CNNs性能和位置信息具有实质性影响,则应预期画布值也可能具有类似的影响。

假设三:位置信息与语义信息相关:

网络编码绝对位置信息的能力是否会影响其编码语义信息的能力?如果由于位置信息的增加,零填充和某些画布颜色会影响分类任务的性能,那么我们期望位置信息与网络编码语义信息的能力相关。我们证明了编码位置信息提高了语义特征的鲁棒性和可分性。

假设四:边界效果出现在所有图像位置:

在没有填充的情况下训练的CNN是否仅在边界或所有图像区域的性能受到影响?图像位置之间的性能如何变化?我们的分析揭示了强有力的证据,表明边界效应影响CNN在输入中所有区域的表现,这与之前的假设[32],[44]形成对比,他们认为边界效应仅存在于图像边界。

假设五:位置编码可以作为特征或bug(act as a Feature or a Bug):

绝对位置信息是否始终与性能改进相关?当任务需要平移不变性时,CNN利用边界信息中的位置信息的能力可能会影响性能,例如纹理识别;但是,如果任务依赖于位置信息,例如语义分割,那么它也很有用。

为了回答这些假设(此处称为H-X),我们设计了一系列新的任务,并使用现有技术量化不同设置下不同CNN中包含的绝对位置信息。本文的贡献来源于我们之前工作[45]中的分析,该分析表明:(i)CNN编码绝对位置信息,(ii)零填充是CNN中该位置信息的主要来源。我们在以下方面扩展了先前的工作:

•    我们介绍了位置相关实验(见图5),该实验使用基于网格的策略,允许对与绝对位置信息相关的边界效应进行逐位置分析。我们证明了在确定边界效应和绝对位置信息之间的孤立影响时,逐位置分析起着至关重要的作用,其是作为到图像边界距离的函数。

•    我们显示零填充隐式地注入了比常见填充类型(例如反射、复制和循环)更多的位置信息。

•    我们估计CNN潜在表示中编码位置信息的维度数量。

•    通过这些实验,我们展示了定量和定性证据,证明边界效应以令人惊讶的方式对CNN产生了重大影响,然后展示了这些发现在多个实际应用中的实际意义。所有实验的代码将公开。

2    相关工作

CNNs中的绝对位置信息。    许多研究探索了允许人类理解CNN学习过程的各种机制,例如,特征可视化[46]、[47]、理解泛化[48]、类激活图(CAM)[49]、[50]和解纠缠表示[42]、[51]、[52]。最近的工作探索了这个领域与CNN的能力编码绝对位置信息。特别是,[35]、[53]表明,CNN能够利用绝对位置信息,尽管存在池化操作。这与我们之前的工作[45]的结果一致,我们发现解码器模块可以从CNN编码中提取像素位置信息。我们进一步提出零填充是编码位置信息的关键来源,并揭示了大小为2的填充使CNN能够编码更多的位置信息。[35]还指出,padding size为2使输入中的所有像素都能对其执行相同数量的卷积运算,并显示了这种填充类型的进一步有益特性,如数据效率。[53]观察类似现象,发现这种空间偏置会导致小目标检测盲点。[54]研究了不同的位置编码,并分析了它们在生成图像时的效果。相反,我们设计了新颖的实验,允许我们进行到边界的距离(distance-to-border)分析,以揭示边界效应与CNN利用绝对位置信息能力之间关系的特性。

显式位置编码。    另一项研究[33]、[55]、[56]明确地注入了绝对位置信息,直觉地利用网络中的位置偏置来提高多个任务的性能。在[55]中,输入图像增加了额外的位置信息,从而提高了CNN在显著对象分割和语义分割方面的性能。[33]中介绍了另一种注入位置信息的简单方法,其中在包含卷积滤波器的空间位置的卷积层上附加了一个附加信道。该层增强的改进表现在各种任务上,包括图像分类、生成建模和对象检测。此外,通过使用胶囊[57]和递归网络[58],在神经网络中注入了各种形式的位置信息,对学习特征层内的相对空间关系进行编码。

CNN中的边界效应。    在生物神经网络中,边界效应是一个研究得很好的现象[44],[59]。以前的工作考虑了人工CNN的边界效应,通过对边界区域使用专门的卷积滤波器[32],或通过填充区域和卷积窗口区域之间的比率重新加权图像边界附近的卷积激活[31]来实现。

本文中介绍的一些内容的基础出现在前面[45],其中我们已经表明CNN编码绝对位置信息,零填充传递位置信息。这就引发了关于绝对位置信息在解决CNN边界效应中的作用的更深层次的问题。在这项工作中,我们特别关注边界效应和关于填充的绝对位置信息之间的关系。这伴随着对引入的位置相关任务的深入分析,以及对边界效应的逐位置分析。

3 CNNS中的绝对位置信息(这部分见前一篇,因为是重复的)

在本节中,我们重新讨论了我们先前工作[45]中提出的假设,即位置信息隐式编码在从预训练CNN提取的特征图中。我们通过以端到端的方式预测来自不同CNN原型的位置信息来验证这一假设。在下面的小节中,我们首先总结问题定义、位置编码网络和合成数据生成。然后,我们讨论位置信息的存在(第3.1节)和来源(第3.3节),然后根据编码位置信息比较不同的填充类型(第3.4节)。

问题表述。    给定一个输入图像Im∈ rh×w×3,我们的目标是预测一个类似梯度的位置信息掩模fp∈ rh×w,其中每个像素值定义了从左侧开始的像素的绝对坐标→右边还是上面→底部我们生成类似梯度的掩模,Gp∈ rh×w,用于我们实验中的监督,基本CNN原型的权重是固定的。

位置编码网络。    我们的位置编码网络(PosENet)由两个关键组件组成:前馈卷积编码网络和简单位置编码模块(PosEnc)。编码器网络从较浅层到较深层提取不同抽象级别的特征。位置编码模块将来自编码器网络的多尺度特征作为输入,并预测绝对位置信息。

合成数据和真值生成。    为了验证网络中位置信息的存在性,我们通过指定一个标准化梯度(如图3所示)1位置图作为真值来执行随机化测试。我们首先在水平(H)和垂直(V)方向生成类似梯度的遮罩。同样,我们应用高斯滤波器来设计另一种真值图,高斯分布(G)。生成这三种模式的关键动机是验证模型是否可以学习一个或两个轴上的绝对位置。此外,我们还创建了两种类型的重复模式,水平和垂直条纹(HS,VS)。无论方向如何,多层特征中的位置信息都可能通过编码模块的转换进行建模。我们设计的梯度真值可以看作是一种随机标签,因为输入图像和真值之间没有位置相关性。由于位置信息的提取与图像内容无关,因此可以选择任何图像数据集。同时,我们还构建了合成图像(黑白)来验证我们的假设。

3.1    位置信息的存在

我们首先进行实验,以验证在预训练CNN模型中编码的位置信息的存在性。我们报告如下基线的实验结果:VGG表明PosENet基于从VGG16模型中提取的特征。类似地,ResNet表示ResNet152和PosENet的组合。PosENet单独表示仅应用PosENet模型直接从输入图像学习位置信息。根据附录A.1中提供的实验细节,我们对基于VGG16[2]和ResNet152[43]的PosENet进行了每种类型的真值训练,并在表1中报告了实验结果。我们还报告了只训练PosENet而不使用任何预训练模型来证明位置信息不是由对象的先验知识驱动的结果。我们的实验并不关注在指标上实现更高的性能,而是验证CNN模型编码了多少位置信息,或者PosENet提取这些信息有多容易。注意,在本实验中,我们只使用了一个卷积层,内核大小为3×3,位置编码模块中没有任何填充。

如表1所示,PosENet(VGG16和ResNet152)可以很容易地从预训练的CNN模型中提取绝对位置信息,尤其是基于ResNet152的PosENet模型。然而,在没有任何预训练编码器的情况下训练位置编码模块(表1中的PosENet)在不同模式和源图像中的得分要低得多。这一结果意味着很难单独从输入图像中提取位置信息。PosENet仅在与深度编码器网络耦合时才能提取与真值位置图一致的位置信息。如前所述,鉴于与输入的相关性已被忽略,生成的真值图可被视为一种随机化测试[48]。然而,在不同真值模式的测试集上的高性能表明,该模型不是盲目地过度拟合噪声,而是提取真实位置信息。然而,与其他模式相比,我们观察到重复模式(HS和VS)的性能较低,这是由于模型的复杂性,特别是真值值和绝对位置之间缺乏相关性(表1的最后两行)。H模式可视为正弦波的四分之一,而条纹模式(HS和VS)可视为正弦波的重复周期,这需要更深入的理解。

图4显示了跨不同模式的几种体系结构的定性结果。我们可以看到与H、G和HS模式对应的预测和真值位置图之间的相关性,这进一步揭示了这些网络中绝对位置信息的存在。定量和定性结果有力地验证了我们的假设,即位置信息隐式编码在每个体系结构中,没有任何明确的监督。

此外,没有任何主干编码器的PosENet无法根据合成数据输出梯度图。我们在之前的工作中探讨了图像语义的影响[45]。有趣的是,注意到不同体系结构之间的性能差距,特别是基于ResNet的模型比基于VGG16的模型实现了更高的性能。这背后的原因可能是架构中使用了不同的卷积核,或者语义内容的先验知识程度不同。

3.2    位置信息存储在哪里?

我们之前的实验表明,位置信息是在预先训练的CNN模型中编码的。同样有趣的是,在预训练的CNN模型的各个阶段,位置信息是否均匀分布。在本实验中,我们分别使用VGG16对所有阶段f1、f2、f3、f4、f5的提取特征进行基于VGG16的PosENet训练,以检查哪一层编码了更多的位置信息。与Sec类似。3.1,我们只在位置编码模块中使用一个3×3内核来获得位置图。

如表2所示,与f1功能相比,具有f5功能的基于VGG的PosENet实现了更高的性能。这可能部分是由于从较深的层(分别为512和64层)提取了更多的特征图,而不是从较浅的层。然而,这很可能表明在网络的最深层中位置信息的编码更强,其中该信息由高级语义共享。我们进一步研究了VGG16的这种效应,其中最上面的两层(f4和f5)具有相同数量的特性。更有趣的是,f5比f4获得更好的结果。这种比较表明,更深层次的特征包含更多的位置信息,这验证了顶层视觉特征与全局特征相关联的普遍观点。


3.3位置信息来自哪里?

我们假设边界附近的填充传递一个包含位置信息的信号。零填充广泛应用于卷积层,以保持输入和输出的相同空间尺寸,在水平和垂直两个轴的开始和结束处添加许多零。为了验证这一点,我们删除了VGG16中实现的所有填充机制,但仍然使用ImageNet预训练权重初始化模型。请注意,我们仅使用基于VGG16的PosENet执行此实验。我们首先测试VGG16中使用的零填充的效果,位置编码模块中不使用填充。从表3可以看出,没有零填充的VGG16模型在自然图像上实现的性能远远低于默认设置(padding=1)。类似地,我们通过应用零填充向PosENet引入位置信息。padding=1(标准零填充)的PosENet实现了比原始(padding=0)更高的性能。当我们设置padding=2(在最近的著作[35],[53]中称为Full Conv)时,位置信息的作用更加明显。这也验证了我们在第3.1节中的实验,该实验表明PosENet无法提取明显的位置信息,因为没有应用填充,并且信息是从预训练的CNN模型编码的。这就是为什么我们在之前的实验中没有在PosENet中应用零填充。此外,我们的目标是探索在预训练模型中编码了多少位置信息,而不是直接与PosENet结合。

3.4    什么类型的填充注入最佳位置信息?

为了揭示决定边界效应在CNN中对绝对位置信息的影响的特征,我们首先确定哪种常用的填充类型编码了最大数量的绝对位置信息。我们评估了不同填充类型(即零、圆形、反射和复制)编码绝对位置信息的能力,扩展3.1节中只考虑零填充的实验。我们首先在Tiny ImageNet[60]上为每种填充类型训练一个具有五层的简化VGG分类网络[2](VGG-5,实现细节见附录a.2)。我们遵循第节中的设置。3.1:位置编码读出模块,使用DUT-S[61]图像进行训练,从冻结的VGG-5模型的最后一层中提取特征,在Tiny ImageNet上进行预训练,并预测类似梯度的位置图(见表4中的顶行)。我们用两个GT位置图进行了实验,它们对每幅图像都是相同的:(i)“水平”和(ii)“高斯”。我们报告了使用Spearman相关(SPC)和平均绝对误差(MAE)对PASCAL-S输入图像的结果[62]。从表4可以明显看出,与复制、边界反射和圆形填充相比,零填充提供了最强的位置信息,支持H-I。请注意,部分卷积[31]仍然使用零填充,但当卷积核仅部分重叠时,人为地使图像变亮(partial convolution [31] still pads with zeros, but brightening the image artificially when the convolution kernel overlaps it only partially)。因此,当使用部分卷积时,位置信息仍然被编码。有趣的是,圆形填充通常是第二大填充类型。我们推测这是因为圆形填充从图像的另一侧获取值,其中像素值通常比直接相邻像素的相关性小。因此,圆形填充通常在边界处具有值转换,对比反射和复制很少或没有向CNN提供关于图像边界位置的信号。

4    位置分析的位置相关任务

现在,我们更深入地探讨了CNN中边界效应对于绝对位置信息的关键重要性,通过设计实验以逐位置的方式揭示这些特征。我们首先描述我们的实验设置和基于网格输入的位置相关实验的实现细节。这些实验用于分析CNN中编码的位置信息的边界效应。这些包括不同画布颜色设置下的位置相关图像分类(图5(a)和第4.3节)和图像分割(图5(b)和第4.4节)。我们的实验旨在确定,对于不同的画布颜色(H-II),输入CNN中哪里会受到边界效应(H-IV)的影响,以及图像的位置如何影响语义特征的学习(H-III)。

4.1    实验设置和实施细节

我们的图像分类和分割实验使用“位置相关”输入(见图6)。输入为彩色画布(使用的颜色包括:黑色[0,0,0]、白色[1,1,1]和CIFAR-10数据集[63]平均值[0.491,0.482,0.446]),图像块随机放置在k×k网格上。在网格设置中使用不同画布颜色的动机受到[35]的启发,它将图像patch粘贴在黑色画布上,以确定CNN是否可以在不同分辨率下对图像位置进行分类(即左上角或右下角)。我们已经证明,零填充(即黑色)显著增加了网络中编码的位置信息量。这表明边界颜色可能在CNNs位置编码中起作用。因此,我们将图像块粘贴在各种画布颜色和大小上,目的是评估画布颜色是否对在离边界不同距离处编码的位置信息量产生影响。除非另有说明,否则所有实验均使用CIFAR10。给定32×32 CIFAR-10训练图像作为图像块,我们随机选择网格位置,并将CIFAR-10训练样本放置在该位置。例如,在k×k网格的情况下,网格画布的大小为32k×32k,其中每个网格位置的大小为32×32,总位置数为。图6显示了位置相关实验的输入示例,以及每个任务的真值。如前所述,所有实验均使用三种不同的画布颜色进行,以显示不同画布下边界效果的影响。请注意,在将图像patch粘贴到画布上之前,我们仅对图像patch进行归一化(换句话说,画布不会得到归一化)。对于分割真值,背景像素与对象像素的比率随着网格大小的增加呈指数增长。然而,由于评估指标是平局交并比(mIoU),因此总体性能在对象类和背景类之间是平均的,即使背景类构成了大多数真值标签。

所有实验均为k∈ {3, 5, 7, 9, 11, 13}. 为确保网格位置之间的公平比较,评估协议包括在每个网格位置上运行整个CIFAR-10验证集(即,我们在单个验证epoch中运行验证集次)。然后,我们对所有网格位置的性能进行平均,以获得总体精度。使用不同网格大小(从较小到较大)的动机→ 较大)用于验证绝对位置是否只能在靠近图像边界或远离图像边界的地方编码。我们报告分类和分割精度方面的精度和平均交集联合(mIoU),分别。除非另有说明,否则我们使用从头开始训练的ResNet-18网络。通过在卷积运算中将填充大小设置为零,可以实现无填充的resnet。为了在填充基线和无填充基线之间进行公平比较,我们使用双线性插值(参见第4.2节的讨论)来匹配无填充情况下剩余输出和特征映射之间的空间分辨率。

4.2无填充的网络实现

为了完整性,我们进行了无填充比较,并对比了使用填充和不使用填充训练的网络之间的边界效应差异。对于没有残差连接的网络(例如VGG),可以通过简单地丢弃填充来实现无填充版本。但是,在比较填充类型时,控制一致的空间分辨率是至关重要的,因为填充和不填充之间的不一致的空间分辨率将由于特征表示的维数降低而导致性能显著下降。另一种解决方案是删除VGG网络中的所有填充,然后将输入图像填充足够的量以保持空间分辨率。但是,这不适用于ResNet主干网,因为由于残差连接,各层特征之间会存在空间错位。或者,可以将输出特征映射插值到与输入相同的大小,这也是最近研究中使用的方法[54]。最后,我们选择插值实现,因为我们相信,在处理有残差连接和无残差连接的网络时,边界附近的视觉信息会得到更好的保留。

使用插值的一个问题是如何在插值过程中对齐特征贴图。如果要素贴图在中心对齐,则插值要素贴图将使要素贴图的内容略微向边缘移动。因此,组合将不再具有来自两个分支的特征,它们将彼此完美地对齐。这种位移效应在边缘附近最大,在中心附近最小,这与观察到的性能特征相匹配。随后的卷积层可能能够撤销一些这种移位,但仅以位置相关的内核为代价,这些内核被裁剪以适合在图像的不同部分引起的偏移。另一个选项是基于角点对齐特征贴图,插值主要发生在中心。在这种情况下,移动效果将发生逆转,角对齐,但特征贴图的中心略微错位。

为此,我们通过实验评估了各种无填充实现技术。我们选择VGG11网络进行此实验,因为它是一个轻量级网络,不包含任何残差连接。表6给出了在不同的无填充实现设置下,使用7×7网格的VGG-11网络的位置相关图像分类和分割结果。有趣的是,使用双线性插值(BI)的无填充实现在这两个任务中都比w/o BI实现了更好的性能;然而,由于w/o BI情况下最终特征映射的空间分辨率低于w/BI情况下的空间分辨率,因此分割情况下的性能差异更为显著,这在分割任务中至关重要。此外,网络可以从特征地图的空间变化轻微错位中提取位置信息似乎是合理的(例如,在图像中心没有错位,在边界处3x3卷积层有1个错位像素)。考虑到这些因素,我们选择在以下所有实验中使用基于双线性插值的无填充实现。

4.3位置相关图像分类

我们研究了使用和不使用填充训练的CNN是否同样能够利用绝对位置信息预测所有图像位置中的类别标签,包括与图像边界的距离和可变网格大小。位置相关图像分类实验是一个多类分类问题,其中每个输入都有一个类标签,CNN使用多类交叉熵损失进行训练(见图5(a))。因此,网络必须学习对patch位置不变的语义特征,才能获得正确的分类分配。

表5(左)显示了与位置相关的图像分类结果。对于所有画布,使用填充训练的网络对网格大小的变化更为健壮。相反,随着网格大小的增加,在白色和平均画布设置下训练w/o填充的模型的性能显著下降,因为位置信息丢失,边界信息无法被利用。但是,当模型在黑色画布下进行不带填充的训练时,分类性能结果不会发生变化,因为在大网格中,嵌入在黑色画布边缘以外的其他位置的图像块(不带填充)基本上与仅具有图片和零填充的图像块相同。有趣的是,画布颜色似乎对分类性能(H-II)有显著影响。将图像语义与背景信号分离的困难是由于非零画布在图像块边界附近区域产生噪声激活,这将在第6节中进一步探讨。

4.4位置相关的图像分割

本节中的实验将检查与之前的位置相关图像分类相似的属性,但适用于密集标记场景。此任务只是一个多类每像素分类问题,其中每个像素分配一个类标签。我们采用与分类相同的网格策略来生成训练样本。由于CIFAR-10是一个分类数据集,不提供分割真值值,我们通过将类别标签分配给图像所属网格位置中的所有像素,为每个样本生成合成真值值(见图5(b))。在现有工作[16]的基础上,我们使用每像素交叉熵损失对网络进行训练,并使用双线性插值将预测图采样到目标分辨率。为了进行评估,我们计算每个网格位置的mIoU,并取平均值报告结果。

图像分割结果如表5(右)所示。类似的模式被视为分类实验(第4.3节)。使用填充训练的网络始终优于不使用填充训练的网络,并且随着网格大小的增加,差异越来越大。与分类实验相比,填充网络的性能随着网格大小的增加略有下降。这是因为mIoU度量在包括背景在内的所有类别中都是平均的,因此在mIoU计算中,对象像素的权重相等,即使对于较大的网格大小,背景像素与对象像素的比率显著增加。对于无填充的情况,我们观察到与分类实验类似的模式,因为白色和平均画布场景比黑色画布场景更容易受到大网格大小的影响。这一发现进一步表明,与任务无关,黑色画布向CNN(H-II)注入更多的位置信息,无论语义难度如何,而不是白色或平均颜色的画布,这一点将在第二节中进一步探讨。6.

4.5感受野大小与边界效应的关系

我们之前的工作[45]研究了从预训练CNN中提取绝对位置信息时,位置编码读出模块中不同内核大小的影响。结果表明,较大的内核大小可能比较小的内核大小捕获更多的位置信息。根据这些结果,下一个合乎逻辑的问题是网络的感受野如何影响编码位置信息的能力。为此,我们现在通过比较两种类型的网络,即resnet和BagNets[64]),来评估网络的有效感受野与其编码位置信息的能力之间的关系。BagNets是ResNet50的改进版本,它将CNN的有效接收野限制为固定的最大值,即9、17或33像素。该比较结果如表7所示,其中ResNet50和BagNet变体均在CIFAR-10上进行训练,以便在不同画布设置下进行位置相关的图像分类和分割。有趣的是,BagNets变体可以对距离边界更远的图像进行分类,类似于ResNet18网络。请注意,图像贴片大小为32×32,因此BagNet33和17的感受野可以覆盖大部分贴片。这就是为什么BagNet9在性能上受到的影响更大。对于语义分割,所有BagNet变体的性能都显著降低。这些结果表明,具有较大接收场和零填充的网络可以利用绝对位置信息更有效地处理边界效应。

图7显示了5×5网格中不同网格位置L的BagNet33和ResNet18分段预测的概率热图。由于感受野受限,BagNet33难以精确分割图像,尤其是在边界附近。综上所述,CNN中绝对位置编码的边界效应和有效感受野大小之间有很强的相关性。

5解释维度估计的表示法

先前的工作[42]、[65]、[66]提出了各种机制,通过量化编码特定语义因子k的神经元数量,从潜在表征中解释不同的语义概念。给定一个预训练的CNN编码器E(I)=z,其中z是一个潜在表示,并给定一个图像对(Ia,Ib)∼ p(ia,ib | k)在第k个语义概念中是相似的,我们的目的是估计在潜在表示中代表这个概念的语义因子zk的维度。Ia和Ib之间的正互信息意味着Ia和Ib在第k个语义概念中的相似性,只有当E对第k个语义概念进行编码时,这种相似性才会保留在潜在表示E(Ia)和E(Ib)中。在[42]之后,我们利用潜在表示中每个维度I的相关性来近似E(ia)和E(ib)之间的互信息。我们假设残差因子的最大维数为| z |(潜在表示的总维数),并使用softmax方程获得结果维数

式中| zk |是语义因子k的维数,F是包括剩余因子在内的语义因子总数。注:我们不需要估计绝对互信息来估计位置和语义维度的比例。仅利用位置互信息和图像对语义类互信息之间的差异来量化位置神经元和语义神经元的比例。因此,相对差异仍然有意义,只有绝对数可能没有意义。

我们生成共享两个语义概念之一的图像对:(i)位置或(ii)语义类。例如,共享位置因子的图像对(参见图8顶行)在类别和画布颜色上不同,而底行上的图像对共享语义类别,但在画布颜色和位置上不同。通过这种简单的生成策略,我们可以准确地估计编码第k个语义因子的潜在表示中的维数。注意,位置或语义类中未捕获的剩余维度分配给剩余语义因子,根据定义,剩余语义因子将捕获潜在表示z中的所有其他可变性。

表8显示了语义因素位置和类别的估计维度。使用的潜在表示是在全局平均池化层之前的ResNet-18的最后阶段输出。我们使用了Sec的网络。4使用适当的背景(即,顶部为黑色,底部为白色)和网格设置进行分割(左侧)和分类(右侧)培训。结果清楚地表明,使用零填充训练的网络包含更多维度,这些维度编码语义因子“位置”(H-I)。此外,表8显示位置编码和语义编码之间存在正相关,即,编码位置的维度数量越多,意味着编码语义的神经元数量越多,支持H-III。

6每地点分析

在本节中,我们利用基于网格的学习范式,在每个位置进行进一步评估,以测试H-I、H-II、H-III和H-IV。特别是,我们分析了零填充和边界效应之间的关系。然后,我们展示了定量和定性结果,这些结果揭示了强有力的证据,即零,无论是作为画布还是填充,注入了最大的位置偏置

6.1边界距离分析:哪些输入区域受到边界效应的影响最大?

首先,我们分析了Secs中报告的图像分类和分割结果。4.3和4.4,关于距离最近边界的距离,这将允许我们回答这个问题。为了获得每个距离的精度,我们对所有网格位置的精度进行平均,这些网格位置与最近边界的距离相同(例如,到边界的距离为零是指网格位置最外层环的平均精度)。图9显示了填充基线(蓝色水平线)和无填充情况之间的精度差异。有趣的是,在靠近边界的网格位置,精度差异更大,并且朝图像中心方向减小。该分析强烈表明,零填充显著影响边界效果,并将位置信息作为对象位置相对于最近边界距离的函数注入网络。相比之下,无填充案例无法在边界位置传递任何位置信息,这导致性能显著下降。还请注意,在距离边界最远的图像中心,支持H-IV的性能有很大差异。请注意,在无填充情况下的三个画布中,当比较中心区域与边界附近的位置(H-II)时,黑色画布的相对性能下降最小。更多到边界的距离分析结果可在Sec中找到。A.3.2见附录。

6.2边界效果是否仅在边界处?

虽然直觉可能表明边界效应仅发生在边界处,但分析输入空间中的其他区域是否也受到边界效应的影响是很自然的。图10比较了带零填充和不带零填充的滤波器激活。请注意,滤波器激活是从特定图层的要素图中随机采样的。如[44]所述,由于与中心激活相比,下游层的连接量有限,因此在前向传递期间,边界附近发现的激活通过网络传播的信息较少。此外,卷积不能在没有填充的情况下完全重叠边界区域,因此也不能识别对象。在图10(右下角)中可以看到这种现象,在无填充的情况下,网格位置7的激活显著减少。有趣的是,对于网格位置25(即,中心),在激活空间中也存在明显的差异。在这里,无填充情况下的激活模糊且嘈杂,这与使用零填充时紧密的方形激活形成对比。虽然边界效果主要影响边界附近的区域,但这些结果清楚地表明,图像中心的输入位置也受到缺少填充的影响,这是支持H-IV的证据。这也解释了图9(左)中网格中心的性能下降。

6.3编码位置是否有助于学习语义?

以秒计。我们提供了定量证据,揭示了编码位置的神经元数量与语义信息(H-III)之间的相关性。我们进一步研究这一现象,以了解通过零填充的位置信息如何允许在图像分类和语义分割任务中学习更丰富的语义。图11中的热图显示了7×7网格的不同网格位置L的分段预测。当不使用填充时,CNN难以分割边界附近的图像(图11中用圆圈突出显示),除非使用黑色画布。然而,对于靠近图像中心的位置,由于没有填充而减少的位置信息大大降低了网络对语义编码的信心。相比之下,零填充在跨所有网格位置和画布颜色分割对象时是一致和可靠的。此外,我们使用t-SNE[67]来可视化图12中的分类逻辑。请注意,上排的单输入示例仅用于突出显示位置L,第二行和第三行显示整个测试集的嵌入。当使用填充时,语义类的可分性显著提高,并且在靠近边界的位置(L=7)的效果尤其明显。这进一步支持了这样的假设,即通过零填充的方式,绝对位置信息使CNN能够学习更健壮的语义特征,这反过来又使得预测逻辑具有更大的可分性。更多分析结果见第。A.4见附录。

6.4画布分析:为什么显式零注入位置信息?

现在,我们通过分析为位置相关分段任务训练的网络的激活情况,探索当边界上存在零(即,作为填充或画布(H-i))时,是什么使CNN能够编码位置信息。对于k×k网格,画布像素与总像素的比率为k2−1 k2。这意味着绝大多数标签将是后台类,因此大多数滤波器应该关注正确标记画布。为了确定这是否适用于所有画布,我们将随机采样的滤波器激活(见图13)可视化,用于在不填充位置相关分段任务的情况下训练的网络。使用“灰色”颜色图显示激活,其中亮和暗强度分别表示高激活和低激活。请注意,激活取自卷积层的输出,并在绘图之前标准化为介于[0,1]之间。即使在早期的层(如第7层),激活模式也存在明显差异。大多数滤波器对图像区域的激活率较低,但对背景区域的激活率较高。相比之下,白色画布和普通画布的画布激活率大多较低,但图像的激活率较高。有趣的是,特别是在第17层(最后一个卷积层),黑色背景的激活让人想起许多不同方向和位置的定向滤波器(例如高斯导数滤波器),这表明它们可以捕获比白色和平均画布更多样化的输入信号,始终在输入区域的中心激活。图13清楚地表明,与支持H-II的其他值相比,边界处的零以黑色画布的形式更容易学习CNN的语义和绝对位置。

总之,我们已经证明,尽管图像边界受到的影响最大,但输入中的所有区域都受到边界效应的影响,并且没有零填充(H-IV)。此外,使用零填充来对抗边界效应和同时编码位置信息使CNN也能够学习更丰富和更可分离的语义特征(H-III)。最后,我们可视化了不同画布的特征,并表明显式零(以黑色画布的形式)允许更容易地学习CNN(H-II)中的语义和位置信息。

7适用于语义分割、纹理识别、数据增强和对抗性稳健性

鉴于上述有趣的发现,很自然地会问,所演示的现象对SOTA体系结构的实际任务有多大影响。更具体地说,编码位置总是提高性能,还是会对某些任务(H-V)造成不必要的影响?

7.1语义分割

我们现在测量零填充对在以汽车为中心的数据集上使用强语义分割网络分割图像边界附近的对象的影响。我们使用DeepLabv3[16]网络和Cityscapes[68]数据集,使用不同的填充类型进行训练。从表9可以明显看出,与不使用填充或使用反射填充的模型相比,使用零填充的DeepLabv3可以获得更好的结果。此外,我们通过计算矩形环形区域(见图14(左上))的mIoU来执行分析,该区域介于X%和Y%之间,其中X和Y是与边界的相对距离(例如,0%)− 5%是图像的最外层区域,而5%− 10%是相邻的内部5%区域),以量化由于边界效应和位置信息缺乏而导致的性能下降。从表9可以看出,总mIoU(100%)和边界区域(0-5%)之间的性能下降对于无填充情况和反射填充情况比零填充情况更为显著,这与第。6.这进一步表明,零填充导致的绝对位置信息提高了所有图像区域的性能,而反射填充在图像边界处没有那么有利。图14显示了使用零填充训练的DeepLabv3如何生成更精确的预测的示例,尤其是在图像边界附近。请注意,边界区域附近的薄或复杂对象尤其受到影响(例如,灯柱)。即使使用填充,性能也会受到影响的原因是边界附近缺少语义和上下文信息,而对于基于网格的任务(第4节),情况并非如此,因为图像修补程序包含整个CIFAR-10图像。更多结果见第节。A.5见附录。

7.2纹理识别

我们评估了三种填充类型的纹理识别模型。我们使用经过零、反射和无填充设置训练的ResNet-34、ResNet50和VGG-5,以及GTOS移动数据集[69]和可描述纹理数据集(DTD)[70]。我们假设,由于在大多数纹理识别数据集中几乎没有空间偏置(例如,方向),位置信息可能不利于CNN的性能。如表10所示,使用反射填充训练的模型优于使用零填充训练的模型。这一结果意味着位置信息可能无法引导网络学习用于纹理识别任务的鲁棒表示。注意,尽管没有填充比反射填充具有更少的位置信息,但是CNN受到没有填充的边界效应的影响(参见图10),这显著地损害了性能(即,因为内核的支持不覆盖整个图像域)。

7.3画布分析:裁剪和对抗性稳健性

我们使用数据增强策略Cutout[38]研究了不同画布颜色对性能和鲁棒性的影响,Cutout[38]只是在训练期间在随机图像区域上放置一个矩形黑色遮罩。我们在PASCAL VOC 2012[71]数据集上使用剪切策略对具有两个主干的DeepLabv3进行评估,该数据集带有黑白掩码(示例输入参见附录中的图20)。我们还评估了每个模型的稳健性,以显示哪种画布对GD-UAP对抗性攻击更具弹性[72]。请注意,GD-UAP攻击是基于与图像无关的DeepLab-ResNet101主干生成的。如表11所示,在不牺牲分割性能的情况下,使用白色遮罩剪裁训练的DeepLabv3对对抗性示例的鲁棒性明显高于黑色画布。

8结论

本文首先探讨了卷积神经网络中绝对位置信息隐式编码的假设。实验表明,位置信息在很大程度上是可用的。结果表明,零填充和边界作为锚定,空间信息从中衍生出来,并随着空间抽象的发生最终传播到整个图像。此外,为了回答边界效应是一种特征还是一种缺陷,我们提供了证据,证明在图像边界使用的启发式方法在CNN执行不同任务的能力中发挥了更为深刻的作用。通过设计一系列与位置相关的实验,我们对这种联系是如何表现出来的进行了独特的探索。我们发现,相对于普通填充类型(H-I),零填充编码了更多的位置信息,并且零填充导致更多维度编码位置信息,这与编码语义的维度数量(H-III)相关。我们检验了CNN执行语义任务的能力,作为到边界距离的函数。这揭示了黑色画布与其他颜色(即白色和中间色)相比能够提供丰富的位置信息(H-II)。我们可视化了CNN中的许多特征,这些特征表明边界效应对输入(H-IV)的所有区域都有影响,并突出了允许对绝对位置信息进行编码的边界处理技术的特征。这种位置编码使CNN能够学习更多可分离的语义特征,从而提供更准确和可靠的预测(H-III)。我们在进行这些实验时考虑了以下问题:边界效应是一种特征还是一种缺陷(H-V)?在梳理出上述基本属性之后,我们能够验证以下假设:根据手头的任务,不同类型的填充、位置信息级别和画布颜色可能是有益的!更清楚地说:位置信息可用于提高性能,但如果不考虑,也可能对CNNs性能有害。这些结果证明了CNN的一个基本特性,这是迄今为止未知的,需要进一步探索。

附录A

A.1绝对位置编码实验的实验细节

数据集:

我们使用DUT-S数据集[61]作为我们的训练集,其中包含10533张用于训练的图像。按照[25],[73]中使用的通用训练协议,我们在DUT-S的训练集上训练模型,并评估PASCAL-S[62]数据集自然图像上位置信息的存在性。合成图像(白噪声、黑噪声和高斯噪声)也如第节所述使用。主要手稿的第3.4节。注意,我们遵循显著性检测中使用的公共设置,只是为了确保训练集和测试集之间没有重叠。然而,由于位置信息相对独立于内容,任何图像都可以用于我们的实验。

评估指标:

由于位置编码测量是一个新的方向,因此没有通用的度量标准。我们使用两种不同的自然选择度量(Spearmen相关性(SPC)和平均绝对误差(MAE))来测量位置编码性能。SPC定义为真值值和预测位置图之间的斯皮尔曼相关性。为了便于解释,我们将SPC分数保持在[-1]范围内。MAE是预测位置图和地面真值梯度位置图之间的平均像素差异。

实施细节

我们使用为ImageNet分类任务预训练的网络初始化架构。位置编码分支中的新层使用xavier初始化进行初始化[74]。我们使用随机梯度下降法对网络进行了15个阶段的训练,动量为0.9,权重衰减为1e− 4.在训练和推理过程中,我们将每个图像的大小调整为224×224的固定大小。由于多层次特征的空间范围不同,我们将所有特征映射对齐为28×28的大小。

A.2 VGG-5位置信息网络实施细则

我们使用一个简化的VGG网络(VGG-5)在Sec中进行位置编码实验。3.4节中的主要手稿和纹理识别实验。主要手稿的第7部分。VGG-5体系结构的详细信息如表12所示(在该表中,我们显示了在微型ImageNet数据集上训练的VGG-5网络,在纹理识别上训练的VGG-5网络具有不同的输入大小:224×224)。请注意,网络是从头开始训练的。微型ImageNet数据集包含200个类,每个类有500个图像用于培训,50个用于验证。输入图像的大小为64×64,使用56×56的随机裁剪进行训练,并应用中心裁剪进行验证。总培训时间设置为100,初始学习率为0.01。在第60和80个时期,通过将学习率乘以系数0.1,学习率衰减。动量为0.9,重量衰减为1e− 4和随机梯度下降优化器一起应用。在预训练过程之后,按照[45]中使用的训练协议,在预训练的冻结主干上应用一个简单的读出模块进行位置评估。请注意,培训前和位置评估程序之间的填充策略类型是一致的。

A.3扩展的每个位置分析

我们现在提供额外的“每个位置”结果。也就是说,我们利用依赖于位置的网格输入,分析网格上每个位置的CNN的性能。这样做是为了揭示边界效应对感兴趣对象绝对位置的影响。我们首先展示了位置相关语义分段任务的类性能(第A.3.1节)。接下来,我们通过对距离最近边界一定数量的网格位置的所有位置的精度进行平均,将性能显示为距离最近边界距离的函数(第a.3.2节)。请注意,所有实验都是在与Sec相同的设置下完成的。4在主要论文中,关于CIFAR-10[63]数据集。

A.3.1每个位置类别的mIoU分析

表13显示了具有黑色和平均画布设置的7×7网格的位置相关图像分割任务的分类mIoU。我们展示了位于右上角(L=7)和网格中心(L=25)位置的类别性能,这突出了绝对位置信息的编码如何影响语义表示的学习。对于边界和中心这两个位置,与缺少填充相比,零填充可以大大提高所有类的性能。这在mean canvas中尤其明显,它演示了黑色canvas如何显式地注入位置信息,即使不使用零填充。例如,比较L=7时的黑色画布和平均画布,可以看出绝对位置信息在学习不同语义表示中的重要性。当不使用填充时,使用平均画布训练的网络很难在该位置学习分割图像,并且与黑色画布相比,网络性能大幅下降。有些课程甚至获得1%左右的mIoU分数,这意味着网络无法学习使用这些设置分割某些课程(例如,鸟、猫、鹿和狗)。当添加零填充(即,平均值,w/填充,L=7)时,网络可实现35%之间的性能提升− 60%. 当使用黑色画布来插入位置信息时(即黑色,不带填充,L=7),性能增益范围为15%− 40%. 显然,通过零填充或黑色画布对位置信息进行编码,会对CNN学习独特语义特征的能力产生显著影响。我们在图像中心看到了一个类似但不太剧烈的模式,进一步显示了边界效果如何影响图像中的所有位置,而不仅仅是图像边界。

A.3.2距离边界性能

图15显示了性能与所有三种画布颜色到最近边框的距离的函数关系。具有零填充的网络表示为蓝色水平线,其中绘制的标记显示未使用填充时的性能差异。与主要论文中的结果一致,边界附近的位置平均而言,网络更难分类和分段,尤其是随着网格大小的增加。

A.4位置相关的图像分割预测

图16显示了网格大小k=5的位置相关图像分割任务的预测。我们将预测可视化为热图,其中每个像素都根据语义类别出现在该像素位置的置信度进行着色。我们展示了不同网格位置的填充(左)和不填充(右)预测,请注意边界效果如何显著影响边界附近的位置。特别是,角点中的位置受影响最大,因为它们受到来自两个边界的边界影响(例如,L=1的顶部和左侧边界)。

图16显示了网格大小k=5的位置相关图像分割任务的预测。我们将预测可视化为热图,其中每个像素都根据语义类别出现在该像素位置的置信度进行着色。我们展示了不同网格位置的填充(左)和不填充(右)预测,请注意边界效果如何显著影响边界附近的位置。特别是,角点中的位置受影响最大,因为它们受到来自两个边界的边界影响(例如,L=1的顶部和左侧边界)。

A.5城市景观数据集的扩展边界效应分析

我们继续研究零填充对强深度CNN分割图像边界附近对象的能力的影响。显示的结果使用与第节相同的网络和培训设置。7的主要手稿,在城市景观[68]数据集上。我们首先在图17中展示了额外的定性示例,它清楚地显示了当不使用填充物时,在靠近边界的位置处性能的大幅降低,特别是对于薄物体(例如路灯或立柱)。

我们提供了第节中分析的其他结果(见表14和图19)。6(语义切分)在论文的主体部分。图18显示了用于该分析的样本评估区域。当评估区域越来越接近图像边界时,无填充情况的性能下降幅度更大。请注意,在所有情况下,性能都是如何从边界到内部25%增长的,此时性能有些停滞,直到达到最内部的80%。

令人惊讶的是,我们也观察到在图像中间的陡峭下降为无填充情况,支持我们的假设,即边界效应在图像的所有区域中起作用而不使用填充。我们认为,中心区域的性能下降是由于城市景观是一个以汽车为中心的数据集,图像中心的像素通常离摄像机很远,除非收集数据的车辆正前方有一个物体。

A.6画布分析:裁剪和对抗性稳健性

图20显示了中断策略的两个培训示例。在裁剪之后,我们只需在训练期间在随机区域上放置一个矩形遮罩(黑白)。请注意,我们根据标准PASCAL VOC 2012验证图像进行评估

你可能感兴趣的:(卷积的位置信息(更新版))