文献阅读 | 膨胀卷积在遥感图像小目标分割中的有效应用

Effective Use of Dilated Convolutions for Segmenting Small Object Instances in Remote Sensing Imagery

本文主要目的是在学习红外小目标检测时看到的有关的文章和算法实现,并对其进行了翻译,作者开源了相关的代码,github地址:作者官方github实现

膨胀卷积在遥感图像小目标分割中的有效应用文章翻译

摘要:近年来,由于CNN的研究进展,高分辨率遥感图像的语义分割有了实质性的改进。然而,以往的工作大多没有充分考虑到遥感任务中存在的具体困难。其中一个难点是遥感图像中的目标小而拥挤。为了解决这一具有挑战性的任务,我们提出了一种新的体系结构,称为局部特征提取(LFE)模块,它附加在扩展的前端模块之上。LFE模块基于我们的研究结果,即由于内核的稀疏性,积极增加的膨胀因子不能聚集局部特征,并且对小对象是有害的。所提出的LFE模块通过聚合局部特征并降低膨胀因子来解决这一问题。我们在三个遥感数据集上测试了我们的网络,在所有数据集上都取得了非常好的结果,特别是对于小目标。

1.引言

  近年来,卫星图像的空间分辨率有了很大提高。因此,感兴趣的对象的大小变得更小。例如,目前,在昂宿星和世界视图等商业卫星中,空间分辨率为50厘米是很常见的。有了如此精细的分辨率,就可以在视觉上区分小对象的各个实例(有关建筑实例,请参见图1)。这在遥感应用中很重要,因为对象的数量提供了有价值的信息,例如新建建筑物的数量可以用作经济指标。
  分辨率的提高不仅带来了目标的变化,也需要利用丰富的空间信息的方法。受最近计算机视觉领域深度学习成功的启发,卷积神经网络(CNNs)解决了最近的遥感分割任务。虽然CNN[8,10,12,14,15]已经做了实质性的改进,但大多数以前的工作直接采用了现代CNN结构,稍作修改,并没有考虑到遥感图像的具体困难。
文献阅读 | 膨胀卷积在遥感图像小目标分割中的有效应用_第1张图片

  图1直观地解释了困难之处。在这张图中,具有代表性的样本比较了昂宿星卫星图像和地面图像(来自城市景观数据集[35])。从这两幅图像中,我们可以观察到以下不同之处。(I)物体大小:与地面图像相比,卫星图像中的物体要小得多。(Ii)物体布局:在卫星图像上,物体分布密集。鉴于这些差异,显然需要设计一个专门的架构来进行遥感分割,而不是直接使用现代的CNN架构。
  要分割如此密集的一群小对象,最重要的元素之一是图像中的上下文。[26]显示了上下文对CNN识别小物体的重要性。在CNN中,大的上下文是通过子采样层获取的。尽管子采样层有助于扩大接受范围,但它们忽略了另一个重要因素:分辨率。分辨率对于解决一群紧密的小对象很重要。尽管如此,通过对图层进行二次采样,要素的分辨率会在网络的各个图层中逐渐丢失。由此产生的粗略特征可能会错过即使跳过连接[1,5]或超列[6,21]等努力也难以恢复的小对象的细节。因此,我们需要一种具体的方法来扩大接受领域,而不会丢失决心。
  作为最有前途的方法,文献[3]提出了膨胀卷积。在膨胀卷积中,核权重的排列由膨胀因子展开。通过增加该因子,权重以给定的间隔(即,更稀疏)被放置得很远,并且核大小相应地增加。因此,通过层层单调地增加扩张因子,可以在不损失分辨率的情况下有效地扩展接收视野。实际上,膨胀卷积在当前的计算机视觉论文中工作得相当好[2,3,7]
  然而,我们强调指出,幼稚地应用膨胀卷积并不总是能提高性能。具体地说,积极增加的膨胀因子不能聚合小对象的局部特征。这是核权重间隔增加的副作用,即核的稀疏性增加(在第3节中解释)。这意味着,尽管不断增加的膨胀系数在分辨率和背景方面很重要,但它可能对小对象有害。这对于遥感场景尤其不可取。虽然配备了越来越膨胀的卷曲的CNN在现代视觉研究中非常流行,但对小对象的分割应该另当别论。
  我们只需逆潮而行–逐渐缩小的卷积就能解决这个问题。为此,我们提出了一个新的模块,称为局部特征提取(LFE)模块(图2)。LFE模块由几个具有递减膨胀因子的卷积层组成。具体地说,我们将LFE模块附加在不断膨胀的卷曲上。这样的组合更可取:随着核权重通过LFE模块变得更加密集,局部特征被聚合。换句话说,LFE模块起到了拯救日益膨胀的卷曲的作用。
  我们在三个遥感数据集上对我们的方法进行了综合评估。在所有数据集上,所提出的模型都优于U-Net[5]和Deeplab[2]等最先进的模型,特别是对于小对象。为了分析LFE模块的效果,我们进行了有效感受场(ERF)分析[27],发现LFE模块平滑了训练模型中出现的网格状ERF模式,并进行了扩张卷积。

2.相关工作

  语义分割是为输入图像中的每个像素分配语义类别的任务。自从FCNs[1]将经过充分研究的分类网络扩展到密集像素标记环境中以来,这一领域已经取得了很大的进展。关于语义分割的一个具有挑战性的问题是如何精确地定位对象。由于空间抽象的粗糙特征,简单的分类网络扩展不能提取清晰的边界。文献[1]通过集成来自网络不同阶段的多分辨率预测图来解决这一问题。另一种方法是基于编解码器架构。在[4]中,首先在编码器部分提取低分辨率语义特征,然后在解码器部分以选择的最大汇聚层位置为线索恢复特征的空间分辨率。与在解码过程中使用最大汇集位置不同,[5]渐进式地精炼特征跳过并组合其编码器网络中的低级特征。这种集成多分辨率特征的概念在[6,21]中也很常见。另一种方法是基于膨胀卷积。在文献[3]中,扩张的卷曲被用来在不降低分辨率的情况下有效地扩展感受野。同时期的著作[32,33]也观察到了我们所指出的相同的膨胀卷积问题(特别是我们将在3.3节中解释的问题的第一部分)。为了解决这个问题,他们提出了连续使用递减膨胀系数的方法。该方法与我们的方法在概念上是相同的,但目标不同:他们的目标是提高\“地面图像的语义分割性能\”,而我们的目标是\“遥感图像中小目标的实例级分割性能\”。
  在遥感领域,卫星或航空图像的语义分割也得到了很好的研究。大多数工作遵循计算机视觉领域的体系结构改进,如利用FCN[10,13]、跳过连接[11]、编解码器结构[12]或膨胀卷积[14]的工作。其中,[14]与我们的工作相近,因为他们还使用了膨胀卷积来避免下采样。然而,他们也在每次扩张的卷积之后使用步幅为1的最大合并图层,这会降低提取的特征地图的实际分辨率。相反,我们的方法不使用合并操作,并且保持与输入相同的分辨率。在文献[13]中,利用类平衡损失函数提高了对小目标的分割精度。在[16]中,输入图像中的像素根据每个目标实例到边界的距离进行分类,从而实现目标边界的精确定位。这两个工作的重点是损失函数的设计,而我们的方法与这两个工作是正交的。
  我们的工作目标不仅是遥感图像的语义分割,还包括单个目标实例的检测。这样的任务被分类为实例感知语义分割。在以往的工作中,该任务主要通过两步流水线来实现:目标掩模提出步骤和后续的3个分类步骤。自从这项任务在[17]中首次提出以来,通过将共享的CNN特征用于单个提案[18]、训练多任务CNN进行对象提案和分类[19]以及以FCN方式进行对象提案[20],已经取得了一些改进。其中一些方法依赖于对象建议方法。特别是在文献[23]中,提出了基于CNN的对象建议方法。这些工作的共同焦点是如何解决地面图像中经常遇到的遮挡问题。然而,与地面图像相比,遥感图像中的遮挡问题并不严重。相反,我们的工作重点是如何精确地分割遥感图像中经常遇到的小目标实例。

3.提出方法

3.1建议的方法概述

  正如在[26]中指出的,上下文信息对检测小对象很重要。如果没有道路、汽车或其他建筑等背景信息,即使是人类也无法识别卫星图像中的小建筑。此外,更高的空间分辨率也是至关重要的。在粗略分辨率下,小对象可能会被过度分割为单个蒙版,或者会丢失。因此,我们既要注意上下文,也要注意解决问题。
  图2显示了所提出的分割模型的示意图:前端模块、局部特征提取(LFE)模块和头部模块。所有模块都设计成通过使用膨胀卷积层来保持分辨率。每个模块的作用是不同的。前端模块被设计为提取覆盖大上下文的特征,因此扩展因子逐渐增加(第3.2节)。相反,后续的LFE模块专用于聚合由前端模块分散的局部特征。因此,LFE模块具有减小膨胀系数的特定结构(第3.3节)。最后,头部模块输出与输入分辨率相同的概率图。该模块是完全连接的分类网络层(例如VGG)的卷积版本。
文献阅读 | 膨胀卷积在遥感图像小目标分割中的有效应用_第2张图片
  作为后处理,输出概率图被用来获取掩码方案。这只需通过阈值处理即可完成(第3.4节)。

3.2.前端模块

  前端模块的作用是聚合大型上下文。在许多CNN模型中,子采样层被有效地用来扩大接收视野大小。但是,子采样图层会降低学习要素的空间分辨率。一种消除子采样层的简单方法失败了,因为为了保持与以前相同的接受场大小,参数的数量呈爆炸式增长。
  为了同时满足较大的接收视野和较高的空间分辨率,我们采用了膨胀卷积[3]。扩张的卷曲在保持分辨率的同时扩大了接受视野。如图2所示,膨胀卷积利用了权重稀疏对齐的特定核。核的大小和稀疏权值的区间均随膨胀因子呈指数扩展。随着膨胀因子的增加,感受野也由较大的核粒指数扩展。虽然以前的工作通常在输出附近的几层使用膨胀卷积,但我们采取了更激进的方法。具体地说,我们去掉了前端模块的所有子采样层,取而代之的是膨胀卷积。虽然这对于小型建筑是有效的,但是关于膨胀内核中的稀疏性有两个问题。这些问题将在下一节中进行说明。
文献阅读 | 膨胀卷积在遥感图像小目标分割中的有效应用_第3张图片

3.3.局部特征提取模块

  LFE模块的作用是解决前端模块的问题。具体而言,膨胀卷积的积极应用会导致两个问题:(1)相邻单元之间的空间一致性变弱;(2)无法在较高层提取局部结构。在这一小节中,我们首先详细描述这两个问题。然后解释LFE模块如何解决问题。
空间不一致性问题:假设一维卷积的核大小为2,膨胀因子为2。在图3的左侧网络中,最上层的蓝色单元受到下层蓝色单元的影响,橙色单元也是如此。这些相同的颜色单元组成信息金字塔,该信息金字塔定义了顶部大多数单元的视场。我们可以看到,由于扩张的核之间的稀疏连接,两个相邻单元的信息金字塔并不重叠。在膨胀因子为2的情况下,两个相邻单元具有不重叠的信息金字塔,并且随着膨胀因子的增加,具有不重叠信息金字塔的相邻单元的数量增加。在前端模块的膨胀因子不断增加的情况下,信息金字塔逐渐从输入分支到输出分支。只要膨胀系数增加,它们就不会再在较高层重叠。这样,输出层中相邻单元的视场仅在较低层略有重叠。实验部分证实,这会导致相邻单元之间的空间不一致,并导致最终输出地图中出现严重的锯齿状图案。
局部结构提取问题:在图3中,右侧网络也显示了信息金字塔,但从左侧颠倒过来。在这种情况下,信息金字塔定义了从最底层单元开始的影响区域。同样,信息金字塔在最底层的两个相邻单元中不会重叠。最上层的所有单元都从这两个单元中的任何一个接收信息,但不能同时接收这两个单元中的任何一个的信息。这意味着最上层的所有单元都不知道两个单元内部的本地结构。与第一个问题一样,非重叠区随着膨胀系数的增大而增大。在前端模块具有不断增加的膨胀因子r的情况下,如果目标对象足够大,能够从对象内部的特征识别其局部结构,则这不是问题。在这种情况下,局部结构可以通过较低层更密集的核来完全提取。然而,在小对象的情况下,一些局部结构需要在较高层提取,因为需要较大的上下文来识别它们。然而,随着膨胀因子的增加,由于信息金字塔的不重叠,高层不能提取局部结构。
局部特征提取模块:针对这两个问题,本文提出了一种降低膨胀因子的局部特征提取模块(LFE)。他们的想法是,问题的主要原因是膨胀系数的增加。如果在膨胀因子增加1之后再附加膨胀因子递减的结构,相邻单元的信息金字塔就可以重新连接起来。因此,递减结构逐渐恢复相邻单元之间的一致性,并提取较高层的局部结构。在实验部分,LFE模块被证明是有效的,特别是对于小物体。

3.4.后处理

  在我们的模型中,单个对象实例的掩码建议是通过简单地对输出概率图进行阈值处理来获得的。然后,对于每个掩码,计算对象分数作为掩码内部概率值的平均值。虽然非常简单,但这种方法在遥感图像上效果很好,与地面图像不同,遥感图像中物体之间的遮挡不是那么严重。即使是严重的,遮挡问题也可以通过将我们的模块集成到先前提出的支持实例的语义分割流水线(例如,[20,22,24])来解决。

4.实验

  在本节中,我们将在三个数据集上评估我们的方法。第一个数据是丰田市数据集,用来建立和验证我们的方法。另外两个,马萨诸塞州建筑物数据集[8]和Vaihingen数据集[31],被用来将我们的方法与先前提出的分割方法进行基准测试。

4.1.评估指标

  在我们的实验中,我们使用了APR,APR VOL[17]和AR[25]来评估我们的方法。这些度量是实例感知语义分割和掩码建议生成任务的常用评估度量。在AR评估中,通常使用固定数量的方案。然而,固定数量的建议在这种情况下是不合适的,因为在遥感图像中,对象的数量在不同场景(例如城市场景和乡村场景中的建筑物)之间变化很大,相反,我们计算每个建议的AR,并使用APR和APR VOL来考虑虚警。

4.2.实验的基本设置

  我们的实验包括三个轴:视场大小(小视场或大视场)、感受野的扩展策略(合并或扩张)和使用LFE模块(有无)。首先,在视场方面,以不同的视场对两种基于池化的前端模型进行训练。这两种模型的体系结构都基于VGG-16[28],但取消了更高层。具体地说,只有VGG-16的第三汇聚层以下的层用于小视场(Front-S),而第四汇聚层以下的层用于大视场(Front-L)。我们将Front-S作为实验的基线。其次,为了验证膨胀卷积的效果,对每个前端模型的膨胀版本进行了训练(Front-S+D,Front-L+D)。具体地说,我们从基于池化的前端模型中消除了所有池化图层,并将卷积转换为膨胀卷积以保持相同的视场。第三,为了验证所提出的LFE模块的效果,我们将LFE模块附加到扩展的前端,并进行端到端的训练(Front-S+D+LFE,Front-L+D+LFE)。在这种情况下,为了确保参数大小的公平性,我们训练与具有LFE模块的模型具有相同参数数量的对应物(Front-S+D+Large,Front-L+D+Large)。唯一但也是重要的区别是,对应的模型没有递减的膨胀因子。取而代之的是,相应层的膨胀系数保持相等。主要模型的详细结构如表1所示。在所有模型中,除最后一个模型外,卷积层后面都有RELU激活。最后一卷积层之后是Softmax层,以输出概率图。所有网络均采用76×76块作为输入输出概率图,中心区域大小为16×16。

4.3.在丰田市数据集上的实验

  数据集:丰田市数据集由日本丰田市周围的卫星图像组成。这些图像是由昂宿星卫星在2014年获得的。培训和测试数据覆盖大约200平方公里和20平方公里,每个包括100,000和15,000座建筑。图像分辨率为50厘米,使用RGB波段。为两个类别提供标签:针对每个像素的构建或非构建。对于训练,补丁被随机裁剪,并通过随机旋转进行增强。然后,我们根据样本中建筑像素的数量来平衡样本。通过这种方式总共收集了40万个补丁进行训练。
实验结果:正如我们在表2和图4(A)中看到的那样,LFE模块在实例度量中执行得最好,并且扩展前端模块的性能优于池化。从前端模块的视场来看,小视场表现优于大视场。为了分析对物体大小的敏感度,我们将建筑物按其大小分为五类:非常小(0-100像素)、小(100-400像素)、中等(400-1600像素)、大(1600-6400像素)和非常大(超过6400像素)。然后我们评估每个建筑大小的AR。图4(B)和©显示了相对于Front-S模型的相对AR改进。正如我们所看到的,膨胀的前端模块和LFE模块在小型建筑中表现出显著的性能提升。大型测试场景的示例输出概率图如图10所示。
  我们还将Dense-CRF[34]应用于Front-S+D+Large和Front-S+D+LFE。虽然两种模型的像素F1得分几乎相同,但实例级性能会下降。一个原因可能是CRF不适合小对象,因为它们通常对比度较弱,边界模糊,这对于CRF来说很难分离单个实例。
  LFE模块的效果:虽然简单地用膨胀卷积替换池层提高了APR VOL的性能,但对于大视场的前端,性能增益相对较低(即,在Front-S和Front-S+D的情况下+2.2%,在Front-L和Front-L+D的情况下+0.7%)。由于Front-L+D比Front-S+D具有更大的膨胀因子,相邻特征之间的空间不一致性变得更强,这可能会影响性能。请注意,使用LFE模块的性能增益在大视场下显著更高(即,在Front-S+D+Large和Front-S+D+LFE的情况下+0.7%,在Front-L+D+Large和Front-L+D+LFE的情况下+2.4%)。这意味着所提出的LFE模块成功地解决了空间不一致性问题。我们还可以在图7的输出概率图中看到LFE模块的效果。在图中,我们可以看到扩展的前端模型的输出中的空间不一致问题导致的有害的锯齿图案。请注意,这些图案在带有LFE模块的模型中进行了平滑处理。
  度量方面的分析:在图4(A)中,我们可以看到像素级别度量和实例级别度量之间几乎没有关系。例如,虽然Front-S+D+Large的像素级F1度量仅略好于Front-S(+0.4%),但在实例级别度量方面实现了很大的改进(例如,4月份的+7.0%)。这些结果反映了这样一个事实,即小对象对像素级度量的影响很小。相反,我们可以看到APR VOL与AR之间存在正相关关系。似乎有一种趋势是,AR高的模型也能达到较低的误警率。
  ERF分析:为了进一步分析LFE模块的影响,我们可视化了模型的有效感受野(ERF)。正如在[27]中所做的,可视化过程如下所示。首先为输出地图中的中心单位设置渐变1,为其他单位设置0。然后,该梯度图被反向传播以计算输入梯度。我们计算验证集中所有面片的输入梯度,并对其绝对值进行平均以形成ERF图。在图7中,我们比较了扩展前端模块(Front-S+D)的随机权重情况和训练权重情况下的ERF。在前一种情况下,使用[29]初始化权重,在后一种情况下,使用丰田市数据集来训练权重。在随机重量的情况下,电流变液中可以看到矩形形状,这与文献[27]的结果是一致的。然而,令我们惊讶的是,在训练权重的情况下,出现了系统的网格模式。像ERF这样的网格是有问题的,因为输出中无法捕获小于网格比例的局部结构。对这种网格模式的一种解释如下:高层扩张核的稀疏连接传播空间稀疏梯度信号。在随机权重的情况下,这些梯度被下层密集核中均匀分布的权值平滑。然而,在训练权重的情况下,较低层的核可能具有相对中心的分布,它们不能平滑足够的稀疏梯度,从而产生类似ERF的网格。这意味着,在我们训练的膨胀前端模块中,本地信息在较低层没有被充分捕获。
  为了了解LFE模块的效果,我们对使用LFE模块和不使用LFE模块的训练模型进行了相同的ERF分析。如图6所示,在具有LFE模块的模型中,扩展的前端模块中的网格模式被平滑。这意味着所提出的LFE模块成功地抓住了较低层遗漏的局部信息。

4.4.马萨诸塞州建筑物数据集和Vaihingen数据集的实验

实验装置:马萨诸塞州建筑物数据集[8]由具有RGB波段的1米空间分辨率航空影像组成。数据集覆盖约340平方公里,其中用于培训的建筑为194,070栋,用于测试的建筑为23平方公里,为15,261栋。在[9]之后,我们随机修剪训练斑块。我们通过随机轮换的方式对每个补丁进行扩充,共获得40万个训练补丁。另一个数据集,Vaihingen数据集,由ISPRS第三委员会提供[31]。数据集由9厘米空间分辨率的航空影像组成。我们使用近红外、红色和绿色波段,不使用数字表面模型(DSM)。数据集包括16个标记场景,覆盖面积约为0.6 km2。在前人作品[11,14,15]的基础上,我们使用5个场景(ID:11,15,28,30,34)进行验证,其余11个场景进行训练。提供了6个类别的标签:不透水表面、建筑、低植被、树木、汽车和杂乱/背景。在这个实验中,我们以汽车类别为目标,只使用汽车标签进行训练和测试。对于这两个数据集,我们将LFE模块的体系结构修改为具有四个卷积层(前两个层的核大小为3,膨胀因子为2,随后的两个层的核大小为3,膨胀因子为1)。这一修改只是一次调整,并不影响结果的倾向性。
与其他方法的比较:在表4和表3中,我们将我们的模型与先前提出的模型的性能进行了比较。在大多数实例级度量中,采用LFE模块的模型对两个数据集的性能都是最好的。在像素级度量上,Front-S的性能与以前的工作相当,这保证了我们的基线。1米2米3米航空影像地面真实面图-S+D+LFE面图9.马萨诸塞州建筑物数据集不同分辨率的输出概率图。从上到下,对数据集的分辨率进行下采样。如我们所见,带有LFE模块的模型即使在分辨率为3m(第三列)的情况下也能检测到小目标。相比之下,基于池的前端模型高估了许多建筑,并且无法在较低分辨率下检测到单个建筑(第五列)。9我们在前人的工作[8,9]的基础上,设置了3个像素的边界边界来计算像素F1。
对输入分辨率的敏感性分析:为了分析我们的方法对输入分辨率的敏感性,我们通过对原始马萨诸塞州建筑物数据集中的所有图像进行下采样,建立了两个不同分辨率的数据集:2m和3m。这些数据集更具挑战性,因为建筑物的大小明显变小,建筑物边缘等局部结构变得更加抽象(参见图9中的航空图像)。对于这些数据集,对基线模型及其扩展版本(带和不带LFE)进行了训练和测试。图8显示了模型的性能如何随着分辨率的变化而变化。正如我们所看到的,对于所有分辨率数据集,带有LFE模块的模型执行得最好。更重要的是,LFE模块在较低分辨率下的性能改善更为显著,这表明LFE模块对小对象的有效性。相比之下,基于池化的前端模块(Front-S)的性能迅速下降,显示了小目标特征分辨率的重要性。图9显示了输出概率图的示例。同样,在此图中,我们可以看到使用LFE模块的模型的有效性。值得注意的是,这种分析在应用方面也很重要,因为几米分辨率的图像已经成为对地观测卫星领域的下一个目标产品。从这种分辨率识别地物的方法在不久的将来将具有重要意义。

5.结论

  本文提出了一种新的基于膨胀卷积的网络结构来精确分割遥感图像中拥挤的小目标实例。特别指出了膨胀卷积在常规使用中存在的问题,并提出了解决该问题的体系结构。
  我们的方法在三个遥感数据集中的小目标实例上表现出了显著的有效性,这表明我们的方法在各种遥感任务中都有很好的应用前景。
  最后,我们的想法并不局限于遥感任务,并有望在拥挤的小实例中发挥作用:生物医学领域的细胞分割、人群计数、行人检测等。

你可能感兴趣的:(红外目标检测文献阅读,计算机视觉)