第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络

0.摘要

        最近的研究表明,上下文特征可以显著提高深度语义分割网络的性能。基于上下文的分割方法在如何构建上下文特征和实际表现上有所差异。本文首次介绍了在分割任务中上下文特征的三个理想属性。特别地,我们发现全局引导的局部亲和性(GLA)在构建有效的上下文特征中起着至关重要的作用,而这一属性在之前的工作中被大部分忽视了。根据这一分析,本文提出了自适应金字塔上下文网络(APCNet)用于语义分割。APCNet通过多个精心设计的自适应上下文模块(ACMs:Adaptive Context Module)自适应地构建多尺度的上下文表示。具体而言,每个ACM利用全局图像表示作为引导,估计每个子区域的局部亲和系数,然后利用这些亲和系数计算一个上下文向量。我们在三个语义分割和场景解析数据集上对APCNet进行了实证评估,包括PASCAL VOC 2012、Pascal-Context和ADE20K数据集。实验结果表明,APCNet在所有三个基准测试中均取得了最先进的性能,并在PASCAL VOC 2012测试集上获得了新的记录,达到了84.2%,在没有MS COCO预训练和任何后处理的情况下。

1.引言

        最近的研究表明,上下文特征可以显著提高深度语义分割网络的性能。基于上下文的分割方法在如何构建上下文特征和实际表现上有所差异。本文首次介绍了在分割任务中上下文特征的三个理想属性。特别地,我们发现全局引导的局部亲和性(GLA)在构建有效的上下文特征中起着至关重要的作用,而这一属性在之前的工作中被大部分忽视了。根据这一分析,本文提出了自适应金字塔上下文网络(APCNet)用于语义分割。APCNet通过多个精心设计的自适应上下文模块(ACMs)自适应地构建多尺度的上下文表示。具体而言,每个ACM利用全局图像表示作为引导,估计每个子区域的局部亲和系数,然后利用这些亲和系数计算一个上下文向量。我们在三个语义分割和场景解析数据集上对APCNet进行了实证评估,包括PASCAL VOC 2012、Pascal-Context和ADE20K数据集。实验结果表明,APCNet在所有三个基准测试中均取得了最先进的性能,并在PASCAL VOC 2012测试集上获得了新的记录,达到了84.2%,在没有MS COCO预训练和任何后处理的情况下。

        为了解决这个问题,最近的一些研究工作[4,40,20,10,13]将上下文向量与局部卷积特征结合起来,以提高分割性能。这些方法在构建上下文向量的方式上有所不同,并在不同的数据集上表现出不同的效果。因此,一个自然的问题是,什么是语义分割的最佳上下文。本文试图通过研究最佳上下文向量应具备的理想属性来解决这个问题。原则上,最佳上下文向量应描述与分割相关的图像内容,与局部特征互补,同时应尽量紧凑,减少无关信息。具体而言,我们总结了以下三个关键属性:

属性1-多尺度对于语义分割,整体对象/物质区域提供了确定局部像素的语义标签的重要线索。由于对象通常具有不同的大小和位置,因此有必要构建多尺度表示来捕捉不同尺度的图像内容。如图1的第一行所示,没有多尺度上下文的方法只能捕捉单一尺度的对象,失去了其他尺度的细节。

属性2-自适应。并非输入图像中的所有区域对于确定给定像素的语义标签都具有相同的贡献。包含相关对象的区域可以提供有用的信息,而其他区域可能几乎没有贡献。在实践中,相关区域/像素可能存在于给定像素附近,也可能远离给定像素,这高度依赖于输入图像的内容和布局。因此,自适应地识别这些重要区域以构建最佳上下文向量非常重要。

属性3-全局引导的局部关联(GLA)为了构建有效的上下文向量,需要对相关像素或区域的特征进行聚合。在实践中,可以通过加权方式总结它们的特征来实现因此,存在一个估计聚合权重的问题。这些权重表示不同区域对预测局部像素的语义标签的贡献程度。先前的工作[20,10,13]主要使用像素和区域的局部表示来估计这些自适应权重,忽略了全局上下文。与这些工作不同,我们的观点是,估计鲁棒的关联权重需要同时考虑局部和全局表示。如图1的第二行所示,马的腿部较小,与属于背景类别的雪具有相似的纹理,主导了整个场景。很容易将腿部分类为背景类别。显然,全局表示对于分割任务是有益的。我们将这个属性称为全局引导的局部关联(GLA),因为局部关联权重是由全局表示引导的。

        接下来,我们将从上述属性的角度比较当前基于上下文的语义分割方法。DeepLab [4],ParseNet [20]和PSPNet [40]分别利用ASPP(空洞空间金字塔池化),GAP(全局平均池化)和PPM(金字塔池化模块)在不同尺度上获取上下文。然而,所有这些上下文向量只描述固定位置的内容,而不是自适应的。最近,DANet [10]利用设计良好的自注意力机制编码全局上下文。PSANet [13]学习自适应的像素级位置敏感的空间注意力掩码来聚合上下文特征。OCNet [37]将自注意力机制嵌入到PPM和ASPP中以利用多尺度性质。但是这些方法都忽视了上面讨论的全局引导的局部关联属性。如表1所总结的,先前的方法只能满足这三个属性中的一部分。在这个基础上,本文提出了自适应金字塔上下文网络(APCNet)用于语义分割,它有效地构建了具备这三个属性的上下文表示。具体而言,APCNet设计了金字塔自适应上下文模块来捕捉多尺度的全局表示。主要贡献如下。

        •我们总结了语义分割中上下文向量的三个理想属性,并从这些属性的角度比较了最近的基于深度上下文的语义分割方法。

        •我们提出了自适应上下文模块,通过利用局部和全局表示来估计局部区域的关联权重,从而利用GLA属性。这些关联权重进一步允许我们构建适应性和多尺度的上下文表示,用于分割任务。

        •我们的方法在三个广泛使用的基准数据集上取得了最先进的性能,包括PASCAL VOC 2012、Pascal-Context和ADE20K数据集,并在PASCAL VOC 2012测试集上获得了新的记录,达到了84.2%,而没有使用MS COCO预训练和任何后处理技术。

第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第1张图片图1.多尺度和全局引导的局部关联性属性的示意图。第一行:多尺度上下文可以捕捉不同尺度的对象。第二行:全局引导的局部关联性有助于分割完整和连贯的对象。

表1.不同基于深度上下文的语义分割方法的比较。MS:多尺度,GLA:全局引导的局部关联性。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第2张图片

2.相关工作

        最近,基于FCN [22]的方法在场景解析和语义分割任务上取得了令人期待的性能,通过编码上下文信息。但是大多数方法只考虑了表1中提到的一些属性。

多尺度上下文多尺度上下文在语义分割中起着关键作用,特别是对于具有不同尺度变化的对象/物质。图像金字塔是获取多尺度上下文的常见方法。[9]使用拉普拉斯金字塔对DCNN [14]的输入图像进行缩放,并合并特征图。SegNet [2],UNet [28]和[5]设计了编码器-解码器架构,分别融合了编码器和解码器的低级和高级特征图。PSPNet [40]和DeepLab [4]分别提出了PPM(金字塔池化模块)和ASPP(空洞空间金字塔池化)模块来编码多尺度上下文。这两个模块在一定程度上是有效和高效的,但它们对所有图像区域的处理是平等的,而不是自适应的。

全局上下文。全局上下文对于综合复杂场景的理解尤为重要。ParseNet [20]通过全局平均池化(GAP)提出了一种简单但有效的方法来编码语义分割的全局上下文。PSPNet [40]利用金字塔区域的上下文聚合来构建全局上下文,利用PPM模块。这些方法无法适应性地为每个特定像素编码全局上下文。DANet [10]和OCNet [37]采用自注意力来捕捉远距离的全局上下文,根据成对的语义特征计算像素级相似度图。而PSANet [13]通过学习像素级位置敏感的空间注意力掩码来聚合全局上下文,以引导信息流动。计算得到的像素级相似度图和学习得到的像素级注意力图对于每个特定像素是自适应的,但这些通过计算像素级相似度或在特定像素位置上进行卷积获得的像素对关系缺乏全局信息。而我们的方法通过学习由局部和全局信息引导的关系。

        与以往的所有工作不同,我们提出的方法通过聚合由局部和全局信息引导的学习自适应关联性的多尺度特征,可以生成更强大的多尺度和全局上下文。

3.方法

        上下文信息对于复杂场景解析和语义分割至关重要。全局上下文有助于捕捉长距离依赖关系,并对整个场景进行全面的理解,而具有不同大小的对象的分割则可以从多尺度上下文特征中获益。接下来,我们将描述提出的自适应金字塔上下文网络,它在全局图像表示的指导下自适应地构建多尺度上下文向量。

3.1.公式化

        首先,我们将描述我们问题的数学公式如下。给定用于分割的图像I,我们使用主干CNN计算一个密集的三维卷积特征立方体X,其中Xi表示位置i处的卷积特征向量。xi表示位置i处的降维卷积特征向量,以实现高效计算。分割任务可以简化为预测像素的语义标签,以i为例。一个直接的想法是仅使用局部特征Xi来估计语义标签。然而,这个想法忽略了其他区域的相关内容,并限制了分割性能。为了解决这个问题,以前的上下文特征已经成功地被利用来提高分割性能[4,40,20,10,13]。在数学上,我们引入zi = Fcontext(X,i)来表示Xi的上下文特征向量,其中Fcontext表示从输入特征立方体中提取zi的函数。以前的上下文分割方法在如何定义Fcontext方面有所不同。

        如第1节讨论的那样,本文旨在设计一个满足三个属性的新型上下文,即多尺度、自适应和全局引导的局部关联性。为了实现这个目标,我们首先将X转化为多尺度金字塔表示。然后,我们分别为每个尺度自适应地构建上下文向量。这里我们以一个尺度s为例,其他尺度可以以类似的方式处理。对于这个尺度,我们将图像I的特征图X划分为s×s个子区域,从而将X按照这种划分转化为一组子区域表示,Ys =[Y1s,Y2s,...,Yss×s]。对于每个子区域Yjs,我们通过平均池化和一个卷积操作来总结其内容,得到一个特征向量yjs。我们引入亲和系数αs i s i,j来表示子区域Yjs对于估计Xi的语义标签的贡献程度。然后,自适应上下文向量可以计算为

第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第3张图片这里的关键问题是如何计算系数αi,j s。理想情况下,αi,j s应该满足全局引导的局部关联性属性,同时考虑到来自xi的局部特征和给定尺度s和位置j的X的全局表示。设g(X)为X的全局信息表示向量,g是一个全局信息提取器。在本文中,我们计算αs i s i,j = fs(xi,g(X),j)。然后,公式1演化为

 述公式2在我们设计自适应金字塔上下文网络中起着关键作用。

 图2.自适应金字塔上下文网络(APCNet)的流程。输入图像被送入一个骨干卷积神经网络,以获取卷积特征立方体X。X被分解为多尺度金字塔表示。每个尺度的表示被送入自适应上下文模块(ACM)来估计每个局部位置的自适应上下文向量。APCNet由多个ACM组成,以并行方式组织。每个ACM由两个分支组成,一个分支用于估计GLA亲和系数,另一个分支用于获取子区域表示。这两个分支的输出被相乘以获得自适应上下文向量。最后,APCNet将来自不同尺度的上下文向量和原始特征立方体X连接起来,用于预测输入像素的语义标签。

3.2.自适应上下文模块

        自适应上下文模块(ACM)是我们自适应金字塔上下文网络中的关键组件。原则上,ACM旨在通过利用全局引导的局部关联性为每个局部位置计算一个上下文向量。ACM利用图2所示的网络架构实现了公式2。ACM包含两个分支。第一个分支旨在计算亲和系数αs,而第二个分支处理单尺度表示ys。具体细节如下所述。

        在第一个分支中,我们首先使用1×1卷积处理X,得到降维后的特征图x,然后通过对x应用空间全局平均池化和一个1×1卷积变换来获得全局信息表示向量g(X)。接下来,我们将局部特征{xi}和全局向量g(X)整合起来,为每个局部位置i计算一个全局引导的局部亲和性向量。在我们的设计中,这是通过一个1×1卷积后跟一个sigmoid激活函数来实现的。有人可能会认为可以利用大的空间卷积。但在实验中,这会导致性能较差,部分原因是由于大滤波器的复杂性。每个亲和性向量的维度为s×s,对应于该尺度下的子区域数量。总共,我们有h×w个亲和性向量,可以将其重塑为一个大小为hw×ss的亲和性图。第二个分支在X上应用自适应平均池化和一个1×1卷积,以获得ys ∈Rs×s×512。然后我们将ys重塑为s2×512的大小,以与亲和性图的大小匹配。然后我们将它们相乘并重塑结果,得到由{zs i}组成的自适应上下文矩阵zs。为了简化训练过程,我们采用残差学习,因此我们将x添加到zs中。

表2.不同金字塔尺度和骨干网络的研究。基准方法是基于ResNet50的带有扩张网络的FCN模型(PS中的none表示没有金字塔尺度)。PS表示金字塔尺度,{1,2,3,6,32}表示池化特征的bin大小,分别为1×1、2×2、3×3、6×6、32×32。结果在PASCAL VOC 2012验证集上评估,使用单一尺度的输入。

第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第4张图片 第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第5张图片

 图3.与基准方法的比较。

表3.对不同骨干网络中GLA的重要性进行研究,其中PS为{1,2,3,6}。GLA表示全局引导的局部亲和力。结果在PASCAL VOC 2012验证集上评估,使用单一尺度的输入。

第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第6张图片

表4.不同训练和评估策略设置的影响,其中PS为{1,2,3,6}。DS表示深度监督[40],Flip表示在评估时对输入图像进行水平翻转,MS表示多尺度评估,FT表示在PASCAL VOC 2012原始训练集上对经过训练的模型进行微调。结果在PASCAL VOC 2012验证集上评估。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第7张图片

第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第8张图片

图4.单一尺度和多尺度分割结果的可视化。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第9张图片

图5.使用/不使用全局引导的局部亲和力(GLA)的分割结果可视化。

表5.基于自适应和GLA模块的PSPNet改进性能。PSPNet获得79.79%的mIoU。结果在PASCAL VOC 2012验证集上评估。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第10张图片

3.3.自适应上下文金字塔网络

        接下来,我们将描述提出的自适应金字塔上下文网络(APCNet)用于语义分割,其架构如图2所示。APCNet采用骨干CNN(如ResNet或InceptionNet)来计算一个卷积特征立方体X ∈Rh×w×c,其中h、w、c分别表示宽度、高度和通道数。然后,APCNet将X转换为总共S个尺度的金字塔表示。具体而言,对于每个尺度s,我们采用自适应平均池化和一个1×1卷积将X转换为特定的空间大小s×s,并获得ys ∈Rs×s×c。然后,每个ys与原始的X一起通过自适应上下文模块(ACM)进行处理,以获得每个空间位置的自适应上下文向量zs i。总的来说,APCNet包含多个并行组织的ACM。接下来,我们可以将从不同尺度获得的{zs i}连接起来,形成最终的自适应上下文向量zi=[z1 i,z2 i,...,zS i]。最后,我们利用局部特征{Xi}和它们关联的上下文向量{zi}来预测每个像素的语义标签。        

3.4.与其他方法的关系

        在本小节中,我们对比了我们提出的自适应金字塔上下文网络与其他语义分割的上下文方法。ParseNet [20]通过全局平均池化来聚合全局上下文,如果我们将αs i s i,j =1,S=1,且yjs =g(X),那么可以将其视为我们模型的一种极端情况。在PSPNet [40]中,αs被设置为用于ys的固定双线性插值系数。相比之下,我们的APCNet通过公式2以自适应的方式估计αs。最近的方法PSANet [13]、DANet [10]、OCNet [37]也通过引入自适应权重来缓解这个问题。这些方法计算成对的相似性或学习像素级的注意力图。但它们都忽视了来自g(X)的全局引导的重要性。与这些方法不同,我们的APCNet不仅考虑了来自局部和全局表示的全局引导的局部关联性(fs),还利用了特征金字塔的多尺度表示。

4.实验

        我们对三个具有挑战性的语义分割和场景解析数据集进行了广泛的实验,以评估我们提出的方法,包括PASCAL VOC 2012 [7]、Pascal-Context [24]和ADE20K数据集 [42]。

4.1.实现细节

        我们采用在ImageNet上预训练的ResNet [12]作为我们的骨干网络。根据[36,4,38]的方法,我们移除了骨干网络的步幅,并分别将扩张率设置为2和4,使得最后两个阶段的输出特征图的大小为输入图像的1/8 [4,38,35]。输出的预测结果经过双线性插值到目标尺寸,用于预测每个像素的语义标签。我们使用多项式学习率策略lr =初始学习率×(1−总迭代次数/迭代次数的幂) [4,5,38]。对于PASCAL VOC 2012 [7]和ADE20K数据集 [42],初始学习率为0.01;对于Pascal Context数据集 [7],初始学习率为0.001;幂为0.9 [38]。我们选择带有动量0.9和权重衰减0.0001的随机梯度下降(SGD)[3]作为优化器。我们在PASCAL VOC 2012 [7]和Pascal-Context数据集 [24]上训练网络80个epochs,在ADE20K数据集 [42]上训练网络120个epochs。在实践中,适当增大的裁剪尺寸可以获得更好的性能,因此我们将裁剪尺寸设置为512,用于PASCAL VOC 2012和Pascal-Context数据集;而对于ADE20K数据集,由于其平均图像尺寸大于其他两个数据集,我们将裁剪尺寸设置为576 [4,40,38]。我们对输入图像进行随机翻转和缩放(从0.5到2)作为数据增强。我们的评估指标是类别交并比的均值(mIoU)。对于多尺度和翻转评估,我们将输入图像调整为多个尺度并进行水平翻转。最终的预测结果是对这些预测结果进行平均 [20,40,30,34]。所有实验都是基于PyTorch [26]实现的。

4.2.PASCAL VOC 2012

        PASCAL VOC 2012 [7]是一个语义分割的基准数据集,最初包含1,464张用于训练的图像,1,449张用于验证,以及1,456张用于测试。在原始的PASCAL VOC 2012数据集 [7]中,总共有20个前景目标类别和一个背景类别。原始数据集经过[11]的增强处理,扩充为10,582张用于训练的图像。我们的实验中使用了这个增强后的训练集,遵循[4,38,5]的方法。我们进行了不同设置的实验,以评估我们提出的模块的有效性。我们的基准是基于扩张ResNet的全卷积网络(FCN) [4,22],如上所述。

金字塔尺寸:我们采用基于ResNet50的扩张网络的FCN [22]作为我们的基准。我们研究了APCNet在不同金字塔尺度(PS)设置下的性能。结果列在表2中。从表2中,我们得出以下观察结果。首先,与基准FCN相比(第一行),所有的金字塔尺度设置都显著提高了性能。其次,金字塔尺度为{1,2,3,6}的模型取得了最佳结果,将基准FCN的性能提高了8.37%(从69.83%提升到78.20%)。我们可以推断,适当设计的金字塔尺度可以有效地捕捉到具有不同尺度的对象的特征。在接下来的所有实验中,我们将采用金字塔尺度为{1,2,3,6}。最后,更深的骨干网络,如ResNet101,可以进一步提高结果。

        图3展示了我们的APCNet和基准模型FCN的可视化结果。显然,由于其金字塔尺度,APCNet保留了更多的细节(第一行)。同时,它也引入了更少的错误标记像素(第二行和第三行),这导致了比FCN更好的性能。

        为了进一步说明金字塔尺度的有效性,我们在图4中展示了不同尺度的改进情况。从图中可以看出,单一尺度的APCNet比多尺度的APCNet效果差,因为单一尺度的APCNet很难对具有大尺度变化的对象进行分割。具体而言,在图4的第一行中,单一尺度的APCNet缺乏船只的详细信息,并且未能对船上的人进行分割。而多尺度设置下,APCNet不仅保留了船只的大部分详细信息,还正确地对人进行了分割。

全局引导的局部关联(GLA:Local Affinity​​​​​​​。我们在不使用GLA的情况下,使用不同的骨干网络进行实验,以验证GLA在我们的APCNet中的重要性。表3列出了在PASCAL VOC 2012数据集的验证集上不使用GLA的不同骨干网络的性能。显然,GLA始终提高了不同骨干网络的性能。

        此外,我们在图5中展示了分割结果,以展示GLA的改进效果。第一行显示,使用GLA的APCNet可以导致更准确的分割(对于靠近人的狗)。第二行和第三行显示,使用GLA的APCNet可以缓解将对象分割为不同类别的问题。这验证了GLA引入的全局信息可以更好地理解复杂的上下文,并对特定对象进行更一致的分割。

训练和评估策略。不同的训练和评估策略的结果如表4所示。我们可以观察到以下几点:1)深度监督可以优化学习过程并进一步提高性能;2)将输入图像缩放到多个尺度并在评估时左右翻转图像是有用的;3)使用原始训练集对经过训练的模型进行微调,将PASCAL VOC 2012验证集的mIoU结果提升到82.67%,而没有使用MS COCO预训练。

自适应。如果去除自适应和GLA模块,我们提出的模型可以简化为PSP Net。因此,我们使用我们的实验设置(添加深度监督)重新实现了PSPNet作为我们的基准模型,使用ResNet101作为骨干网络,在PASCAL VOC验证集(单一尺度)上获得了79.79%的mIoU。通过添加自适应和GLA模块,性能得到了明显的改善,如表5所示。

        对于PASCAL VOC 2012的测试集评估,我们将金字塔尺度设置为{1,2,3,6},并采用深度监督策略[40]在增强的训练集上训练骨干模型。骨干模型是在ImageNet[29]上预训练的ResNet101。然后,我们在原始的训练和验证集上对经过训练的模型进行微调。训练后,采用多尺度和翻转进行测试。最终的结果提交到官方服务器进行评估,并与最先进的方法进行比较,结果在表6中展示。显然,我们的APCNet在几乎所有PASCAL VOC 2012的类别上都显著优于其他方法。需要注意的是,APCNet能够区分外观非常相似的类别,例如牛(93.7%)和马(95%)。这可能归功于我们方法的GLA属性,它同时考虑了全局和局部信息。在没有在MS COCO数据集[16]上进行预训练的情况下,APCNet实现了84.2%的mIoU的最先进性能,这证明了我们提出的方法的有效性。在进行了MS COCO预训练的情况下,我们提出的方法在基于ResNet101骨干的方法中实现了87.13%的mIoU的最佳性能。

4.3.Pascal-Context

        Pascal-Context数据集[24]是对PASCAL VOC 2010 [8]进行了额外的注释,包括整个场景的标签。在[38,17]的基础上,我们在4,998张训练集图像上训练模型,并在5,105张测试集图像上进行评估,并在包括59个前景类别和一个背景类别的60个类别上报告结果。表7比较了最先进方法的性能。在相同的骨干模型下,我们的APCNet在很大程度上超过了DeepLab-v2 [4],EncNet [38]和DANet [10]。此外,我们的APCNet在Pascal-Context数据集上实现了最先进的性能,从而证明了它在语义分割中的有效性。

4.4. ADE20K

        ADE20K数据集[42]是一个挑战性场景解析数据集,提供了150个类别的密集标签,其中包括20K/2K/3K张图像用于训练、验证和测试。由于该数据集中场景的多样性和复杂性,很难实现微小的改进。不同方法在ADE20K验证集上的结果总结在表8中。我们的结果在即使使用较浅的骨干网络下也超过了其他最先进的结果。我们还将我们的方法在测试集上的分割结果提交到官方评估服务器。像素准确率为72.94%,mIoU为38.39%,得分为55.67%,在排行榜上排名第一。

表6.在PASCAL VOC 2012测试集上的每类结果。我们的方法超过了所有先前的最先进方法,并且在没有使用MS COCO数据集进行预训练的情况下达到了84.2%。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第11张图片

表7.在包括背景的60个类别的Pascal-Context数据集上的分割结果。我们的方法大幅超过了所有先前的最先进方法。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第12张图片 

表8.在ADE20K验证集上的分割结果。我们的方法超过了所有先前的方法。第十九章:APCNet——Adaptive Pyramid Context Network for Semantic Segmentation——用于语义分割的自适应金字塔上下文网络_第13张图片

4.5.总结

        与ParseNet [20]和PSPNet [40]相比,我们的方法在PASCAL VOC 2012、Pascal-Context和ADE20K数据集上取得了更好的结果。这些结果表明,APCNet能够在全局表示的指导下自适应地聚合多尺度上下文。与PSANet [13]、OCNet [37]和DANet [10]通过计算每对像素的语义关联或在特定像素上进行卷积来构建语义上下文不同,我们的全局引导的局部亲和力更加合理,并且能够得到更高的性能。

5.概括

        在本文中,我们讨论了上下文特征的属性,并提出了APCNet来自适应地构建用于语义分割和场景解析的多尺度上下文表示。APCNet引入了自适应上下文模块,利用我们精心设计的全局引导的局部亲和力生成局部亲和系数。大量实验证明,APCNet能够捕捉不同尺度的物体,并且对物体的预测更加完整和一致。APCNet不仅可以嵌入到任何基于FCN的语义分割网络中,还可以嵌入到网络的任何层中,独立于输入特征图的大小。根据其属性和灵活性,APCNet还可以扩展到其他场景理解任务中。

你可能感兴趣的:(网络,架构,cnn,人工智能,神经网络)