论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法

NFANet: A Novel Method for Weakly Supervised Water Extraction from High-Resolution Remote Sensing Imagery

NFANET:一种新的高分辨率遥感影像弱监督水体提取方法

作者:Ming Lu,Leyuan Fang,Muxing Li,Bob Zhang,Yi Zhang,Pedram Ghamisi

期刊:IEEE Transactions on Geoscience and Remote Sensing(IEEE地球科学与遥感汇刊)

机构:AustralianNationalUniversity

发表时间:2022

中科院分区:SCI 2区

JCR分区:Q1

翻译原文链接: https://arxiv.org/pdf/2201.03686v1.pdf

1.摘 要

使用深度学习进行水提取需要精确的像素级标签。但是,在像素级别上标记高分辨率遥感图像非常困难。因此,我们研究了如何利用点标签提取水体,并提出了一种称为邻居特征聚合网络(NFANet) 的新方法。与像素级标签相比,点标签要容易得多,但是它们会丢失很多信息。在本文中,我们利用了局部水体相邻像素之间的相似性,并提出了一种邻居采样器来重新采样遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法来进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或局部特征来学习更多代表性特征。实验结果表明,所提出的NFANet方法不仅优于其他研究的弱监督方法,而且获得了与最新方法相似的结果。

2.国内外研究现状

  • Hong等提出了多种融合架构,以解决在遥感图像分类应用中广泛应用的多模态学习和跨模态学习这一特殊情况
  • Hong等建立了一种将图卷积网络 (GCN) 和CNN相结合的方法,融合不同的高光谱特征,以提高高光谱分类的性能。

深度学习应用于水提取

  • Zhang等提出了级联全卷积网络来提高水体检测的性能,并引入全卷积条件随机场 (CRF) 来实现CRF中高斯核的自动学习。
  • Li等提出了密集局部特征压缩网络。该网络的每一层都紧密连接以接收其所有先前的特征图。此外,该网络还包括一个本地特征压缩 (LFC) 模块,以集成空间和光谱信息。
  • He等人应用UNet和attraction-UNet来Landsat-8图像以提取冰川湖。具体来说,将自我注意模块添加到跳跃连接中,以加强对冰川湖网络特征的提取。
  • Wang等将多尺度卷积网络与Google Earth Engine相结合,提出了一种离线训练和在线预测监测城市水的方法。为了提高提取水体边界的能力,
  • Miao等提出了一种称为边加权损失的新损失函数,通过计算欧几里得距离来获得边界的更高权重。

3.存在的问题

  • 深度学习用于特征提取的成功在很大程度上取决于是否有足够的像素级标签进行训练
  • 弱监督学习不需要像素级标签,并且具有快速标签和低时间成本的特点。然而,弱注释的使用使得监督信息严重不足,从而导致形状、纹理、边缘等关键信息通常会丢失,这使得从场景复杂的高分辨率遥感图像中提取水分变得困难。

4.解决方案

与其他自然物体不同,水体通常是液体,其颜色和纹理非常相似。因此,水体中的相邻像素之间存在高度的相似性,这使得水体的相邻像素之间的固有差异通常小于非水体的相邻像素之间的固有差异。

  • 使用邻居特征来共同决定该位置的像素是否属于水体。
  • 提出了邻居特征聚合网络 (NFANet) 来充分利用此属性。具体来说,我们利用一种称为邻居采样器的采样方法从高分辨率遥感图像生成一组相邻图像。(相邻图像组具有相似但不同的特征)
  • 使用端到端模型对相邻图像组的每个图像进行特征提取,并使用特征聚合模块聚合特征
  • 通过递归训练进一步细化水体边界

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第1张图片

图1 使用邻居采样器对输入图像进行采样,其中左边是原始图像,

右边是邻居图像组。不同颜色的点表示像素映射关系。

5.主要贡献

1)我们提出了一种新的采样方法,对高分辨率遥感图像进行重采样并生成邻域图像组,以提取邻域信息,这有助于区分水体和陆地边界。

2) 我们开发了一个弱监督深度学习算法模型称为 NFANet。与仅使用局部特征或全局特征的其他方法相比,所提出的方法能够使用邻居信息来学习更具代表性的特征。

3)我们提出了一种递归训练策略,可以进一步细化水体边界,使边界平滑,更接近地面实况。

6.相关工作

6.1基于人工特征的方法

水体提取的关键问题是如何确定水体与其他自然特征之间的差异

  • Gao等提出了归一化差分水指数方法 (NDWI),该方法使用特定波段的遥感图像进行归一化差分处理。该方法可以突出图像中的水信息,弱化非水因素的影响。
  • Trias-Sanz 等人使用一种结合颜色空间变换和纹理特征的分层分割方法来分割湖泊。
  • 巴顿等使用 AVHRR 通道 4 提取的亮度温度来识别水体和监测洪水。

6.2基于深度学习的方法

  • Zhang等提出了一种基于r-cnn的网络称为maskr-cnn,该网络将语义分割和目标检测结合在决策层,提高了水、池、路、建筑物的分割精度。
  • Li等认为,单尺度模型可能导致水体提取不准确。他们将DeepLab v3与多尺度联合预测相结合,并使用完全连接的CRF(条件随机场)来优化水体边界。
  • Wang等采用了模型精度变异度算法和样本质量分析算法,减少了水标不正确对模型的影响,从而提高了预测精度。
  • Cui等提出了多尺度特征提取模块和自适应特征融合模块,并将其应用于海陆分割。
  • 楚等人构建了 ResUNet 来处理复杂的海陆分割场景,然后使用全连接 CRF 和形态学操作进一步细化水体边界。
  • 董等将相邻像素的空间位置和特征空间引入损失函数,提出了子邻域系统约束。
  • Feng 等人结合基于超像素的 CRF 和 UNet 的预测结果来增强水提取。

6.3弱监督学习

全监督学习可以非常准确地提取遥感图像中的目标对象,但通常需要使用像素级的标签,耗费大量的人力和财力,需要一定程度的专业知识进行标签。一些研究者尝试用传统的方法结合深度学习来解决监管薄弱的问题。

  • Fu等将超像素和局部地图结合起来,得到粗糙的伪标签,训练水提取模型。
  • Chen等将超像素池与多尺度特征融合相结合,对建筑物进行检测。其他研究人员试图通过使用神经网络本身的提取能力来获得更好的结果。
  • Wang等借鉴类激活图 (CAM) 原理,从UNet中提取特征图进行硬阈值处理,得到分割预测。

7.方法 

图2说明了所提出的弱监督水提取框架。图2a示出了整个递归训练过程,该过程在下面的C小节中进行了描述。伪标签的获取如图2b所示。我们将邻居图像输入到网络中,并使用点标签进行监督以获取邻居特征。然后使用特征聚合模块进行特征聚合。最后,进行后处理以获得伪标签。我们将在以下各节中描述上述每个步骤的详细信息。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第2张图片

 图2 提出的弱监督水体提取框架; (a) 代表递归训练过程,(b) 是提议的 NFANet。

7.1邻居采样器

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第3张图片

  图3 提议的邻居采样器。当k设置为2时,单元包含2 × 2大小的相邻像素,

并被重新分配给相邻图像组。最好用彩色观看。

首先,我们引入邻居采样器,从单个光学遥感图像x中获得邻居图像组 (n1 (x),n2 (x),...,nL (x))。L表示邻居图像的数量。图3展示出了使用邻居采样器生成一组邻居图像的示意图。让我们假设输入图像 x 的宽度、高度和通道分别为 W、H 和 C。邻居采样器N = (n1, n2, . . . , nL)的实现描述如下:

1)图像x被划分为\frac{W}{K}\times \frac{H}{K}个单元格,其中每个单元格的大小为K×K×C。我们通过实验将 K 设置为 2,因此,L = K × K = 4。

2) 对于第 i 行第 j 列的单元格,按照从上到下、从左到右的顺序选取每个单元格相邻位置的像素点,被认为是(i,j ) ——N 的第(i,j)个元素 N= (n1 (x) , n2 (x) , . . . , nl (x))。当K设置为2时,分别选择左上、右上、左下和右下相邻位置的像素。

3)对于所有在步骤1)被划分的\frac{W}{K}\times \frac{H}{K}个细胞,将重复步骤2),直到所有细胞都被重新采样,并生成一个邻居采样器N = (n1, n2, . . ., nL)。给定一幅光学遥感影像x,生成一个邻域影像组(n1(x),n2(x),...,nL(x)),其中每个邻域影像的大小为\frac{W}{K}\times \frac{H}{K}\times C

 这样,可以从原始数据集生成邻域图像数据集。相邻图像相似但不相同,因为对于任何两个相邻图像,第 (i, j)个像素来自原始遥感图像的相邻位置。

7.2特征聚合模块和后处理

我们将近邻图像组输入端到端网络进行特征提取,得到对应的近邻特征组\left ( f_{1}\left ( X \right ),f_{2}\left ( X \right ) ,\cdots ,f_{L}\left ( X \right )\right )\epsilon R^{H\times W\times C},其中 f_{l}\left ( X \right )\epsilon R^{H\times W\times C}表示从相邻图像组中的第 l 个图像中提取的特征图。我们使用编码器-解码器结构作为特征提取网络。具体来说,特征图是从倒数第二个卷积层中提取的。网络结构如图2b所示。值得注意的是网络是可替换的(实验部分使用了多种网络结构进行特征提取)。采用 CMax pooling 将每个相邻特征的通道数减少为一个。 CMax pooling 在数学上的详细定义如下:给定一个三维特征图张量组F = \left ( f_{1}\left ( X \right ),f_{2}\left ( X \right ),\cdots ,f_{L} \left ( X \right )\right )\epsilon R^{H\times W\times C\times L},CMax pooling的操作如下:

结果,得到特征映射组Z= \left ( z_{1}\left ( x \right ),z_{2}\left ( x \right ),\cdots ,z_{L} \left ( x \right )\right )\epsilon R^{H\times W\times L}。图4给出了特征图组Z的可视化结果。可以看出,同一遥感影像的不同邻域影像对水体具有一定的关注度。有些特征更关注水体和非水体之间的边界,有些特征更关注纹理区域。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第4张图片

 图4  CMax 池化后邻居特征组的可视化结果。列代表相同的相邻要素组。

接下来使用OTSU算法对Z中的每个特征进行二值化,得到结果O= \left ( o_{1}\left ( x \right ),o_{2}\left ( x \right ),\cdots ,o_{L}\left ( x \right ) \right )\epsilon R^{H\times W\times L}。公式如下:

 最后对邻居特征组的所有二值化邻居特征进行投票,得到聚合结果V。具体计算公式为:

 综上所述,特征聚合模块的数学定义详述如下:

其中F\epsilon R^{H\times W\times C\times L}表示邻居特征组,V\epsilon R^{H\times W}是输出。接下来,聚合结果 V 被输入到后处理模块。图 5 显示了特征聚合模块和后处理模块。具体操作包括使用区域填充对封闭区域进行小孔填充和使用形态学操作去除噪声。然后我们对处理后的结果应用点标签约束。点标签约束表示如下:

 其中 Q\epsilon R^{H\times W}表示 V 中任意独立的水体区域,q 为 Q 中的任意像素,p 表示点标签。如果结果中的区域包含点标签,则保留整个区域,否则不保留;生成的结果用作伪标签,并作为监督信息输入到递归训练中。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第5张图片

 图5.特征聚合模块和后处理。

7.3递归训练

在深度学习领域存在几种递归训练方法 [52],[53]。[54] 中的工作使用语义分割和目标检测分支进行循环引导,以提高伪标签的质量。在 [55] 中,数据噪声和模型噪声用于递归训练,以提高模型的泛化能力。与上述方法不同,我们将邻居采样器嵌入到递归训练中,以便网络可以学习邻居特征 (流程图如图2a所示)。我们方法的具体步骤如下:

a.将图像输入邻居采样器以生成邻居图像组,并将这些带有点标签的邻居图像输入模型进行训练。

b.将邻居图像再次输入模型,并使用特征聚合模块生成伪标签,作为点标签的替换。

c.将伪标签输入到邻居采样器中,生成伪标签组。并将带有伪标签组的邻居图像组输入模型进行训练。

d.将邻居图像组再次输入模型进行预测,并生成结果组 (将组结果平均以获得新的伪标签) 作为新的伪标签,以替换先前的标签集。

e.转到步骤c。

8.实验结果及讨论

8.1数据集

公开数据集

该水体数据集来自高分挑战BAS-Net: Boundary-Aware Semi-Supervised Semantic Segmentation Network for Very High Resolution Remote Sensing Images | IEEE Journals & Magazine | IEEE Xplore,其中包含分辨率为0.5 m的RGB泛锐化图像,不包含红外波段或数字高程模型。所有图像均取自中国的武汉和苏州,主要是农村地区,城市地区为辅。数据集中的正标签包括河流、水库、稻田、沟渠、池塘和湖泊,而所有其他非水像素都被视为负。将数据集裁剪成1000图像,其大小为492 × 492,没有任何重叠。原始数据集仅包含像素级标签,因此我们重新注释了数据集。具体而言,该数据集由两名专业人员进行注释,并由遥感图像处理领域的专家进行检查。规则是每个独立的水体都随机标有大小为5 × 5的点标签,该标签模拟了贴标机在真实场景中的贴标行为。我们将原始数据集的像素级标签用作地面真相。数据集如图6所示。在实验中,弱监督模型采用点标签作为初始监督信息,而全监督模型采用像素级标签。由于遥感图像分割/分类评价指标的总体精度或kappa系数不能有效地描述图像分割几何的真实结构,因此我们选择fgIoU (前景IoU),bgIoU (背景IoU),mIoU (均值IoU),fgDice (前景骰子),bgDice (背景骰子),和mDice (平均骰子) 来综合评估结果。对于每个模型,我们进行了五次独立运行,以计算这些评估指标和标准偏差。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第6张图片

 图6.水体提取数据集。第一行代表原始图像,第二行代表点标签,第三行代表地面真相。

8.2参数设置

在我们的实验中,我们使用多个主流模型作为特征提取网络并嵌入邻居采样器和特征聚合模块,包括 FCN,UNet ,ResUNet ,NestedUNet ,D-LinkNet ,DeepLab V3+ ,MFDeepLab V3+ ,SANet ,SNSCNN ,DeepUNet和MRResNet。具体设置如下。在FCN模型中,我们选择使用FCN-8s。具体来说就是对最后三层的feature maps逐渐上采样合并,最后得到输出。 UNet 模型使用四层编码器-解码器结构。编码器由两个连续的 3×3 ConvBN-ReLU 层和一个最大池化层组成。解码器由两个 3×3 Conv-BN-ReLU 层和一个上采样层组成。我们将两个连续的 3×3 Conv-BN-ReLU 模块连接成 ResUNet 的残差结构;其他结构同UNet。 NestedUNet的深度设置为四层,每层都加入密集连接。 DLinkNet 使用预训练的 ResNet 作为主干。我们将Dblock中不同dilated convolutions的kernel size设置为3×3,dilated rate为6,12,18,24。对于Deeplab V3+中的ASPP,我们设置了一个point convolution,一个global average pooling层和三个扩张卷积,扩张率设置为6、12和18。在MFDeepLab V3+中,三个不同尺度特征的权重系数设置为0.4、0.3和0.3。在 SANet 中,我们使用自适应多尺度特征学习模块 (AML) 来替换 UNet 的卷积模块。 SNA-CNN模型采用四层encoder-decoder结构。 DeepUNet采用六层encoder-decoder结构;为了公平比较,不使用基于超像素的分割和 CRF。在 MRResNet 中,多尺度扩张卷积 (MSDC) 模块的扩张率设置为 1、2、4、8 和 16。多核最大池化 (MKMP) 模块包含四种不同大小的感受野的上下文信息:2×2 , 3 × 3 , 5 × 5 和 6 × 6 。当K的值为2时,增加一个额外的解码器,使输出大小与标签一致。在其他情况下,输出被上采样到与标签相同的大小。

在拟议的 NFANet 中,仅随机水平翻转、随机上下翻转和随机旋转 90 度用于数据增强。我们将 batch size 设置为 4。在递归训练中,使用交叉熵加上骰子损失作为损失函数。我们将学习率设置为 0.0001,并使用提前停止策略来防止过拟合。具体的early stopping策略是每3个epoch训练损失不减少就减半学习率,训练6个epoch训练损失不减少就终止训练;总的epoch上限设置为100次。优化器采用带权重衰减的Adam优化器,权重衰减设置为0.001。

8.3与完全监督方法的比较

我们将我们的方法与其他几种完全监督的语义分割方法进行了比较。通常,数据集被随机分为三组,其中 60% 的图像用于训练,20% 的图像用于验证,20% 的图像用于测试。考虑以下11种方法进行比较:

1)微调的FCN。特征提取器是一个预训练的 VGG-Net,我们将最后一层的输出维度设置为类别的维度。

2)UNet。我们采用四层编码器-解码器结构,其他设置与弱监督参数设置基本相同。 UNet 通常在二类语义分割中表现良好。

3)Res-UNet。基于对 UNet 结构的改进,我们将编码器或解码器中的卷积层组合成残差连接。

4)NestdeUNet。基于对UNet结构的改进,包含更多的长短连接,事实证明特征提取能力更强大。

5) D-LinkNet。这是在 2018 年 CVPR 道路提取竞赛中获得第一名的模型。擅长二类语义分割;中间部分的Dblock连续使用多个dilated convolutions进行dense connection。

6) DeepLab V3+。 ASPP模块从不同的感受野中提取深层语义信息,并使用全局平均池化获得全局特征和更多的语义细节。

7) MFDeepLab V3+。解码器采用多尺度特征加权融合进一步细化水域细节,需要设置不同特征的权重系数作为超参数。

8)SANet。该模型结合了多特征提取和自适应特征融合,形成了 AML。

9) SNS-CNN。该模型将扩张卷积嵌入到上采样操作中以保留解码细节。

10) DeepUNet。该模型使用深度 UNet 网络进行水提取,并使用基于超像素的分割和 CRF 进一步细化结果。

11) MRResNet。该模型使用 MSDC 模块和 MKMP 模块,这有助于保护水体的边界。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第7张图片

在表 I 中,我们报告了所提出方法的水提取性能,并将其与完全监督的方法进行了比较。最好的分数在表中以粗体显示。图 7 还说明了所有方法的视觉性能。实验表明,我们的方法与基于 NestedUNet 的模型一起获得了最好的分数。视觉表现表明,我们的方法得到的预测结果非常接近地面实况。我们方法的bgIoU达到91.6%,fgIoU达到68.8%,mIoU达到80.2%,bgDice达到95.6%,fgDice达到81.5%,mDice达到88.6%。与最好的全监督模型 MRResNet 相比,我们方法的 mIoU 仅降低了 3.8 个百分点,mDice 仅降低了 2.5 个百分点。然而,我们方法的标记成本远低于完全监督方法。从图 7 中,我们可以观察到以下结果。与全监督预测结果相比,弱监督预测结果的边缘不是很平滑,并且在一些局部小水体中仍然存在一些缺陷。我们观察到,这些不完整的小水体更难识别,通常会被误认为是草地或裸土。这很可能是我们的结果与全监督方法的结果之间存在差距的原因。对于训练数据量的影响,我们进行了更详细的消融实验(见表四和图12)。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第8张图片

 图 7. 全监督方法和我们的方法的预测结果。部分新模型的可视化结果如下图所示。 (a) 和 (h) 代表原始图像和地面实况。 (b)-(g)分别代表NestedUNet、MFDeepLab V3+、SANet、SNS-CNN、DeepUNet和MRResNet的预测结果。 (i)-(n) 分别代表我们基于 NestedUNet、MFDeepLab V3+、SANet、SNS-CNN、DeepUNet 和 MRResNet 的方法的预测结果。

8.4与弱监督方法的比较

我们将我们的方法与其他几种弱监督遥感方法进行了比较。数据集随机分为三组,其中 60% 的图像用于训练,20% 的图像用于验证,20% 的图像用于测试。用于比较的其他弱监督方法如下。

1)在[46]中,作者使用图像级标签监督生成定位图,结合基于图算法的传统算法获得伪标签,然后使用伪标签监督来训练网络。为了公平比较,我们使用点标签进行监督,然后使用 CMax pooing 生成定位图。

2)在[47]中,该模型使用图像级标签进行监督。我们移除了全局平均池化层和全连接层,并使用点标签进行监督。

3)在[48]中,作者结合了UNet和CAM形成了一个U-CAM。具体来说,U-CAM是通过最后一个卷积层输出的滤波器维度的权重和得到的,其中权重来自于全连接层。然后对U-CAM进行阈值处理,得到硬分割预测。

4) 我们训练了一个只使用点标签进行监督的 UNet。损失函数只计算正标签,负标签不参与损失计算。我们用它作为点监督的基线。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第9张图片

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第10张图片

 图 8. 其他弱监督方法和我们的方法的预测结果。 (a) 和 (b) 代表原始图像和地面实况。 (c) 表示 Loc-Maps 方法。 (d) 代表 SPMF-Net。 (e) 代表 U-CAM。 (f) 代表基线。 (g) 代表我们的方法。

表II显示了我们的方法与其他弱监督遥感方法的比较的实验结果。图8显示了与所提出的方法相比,其他弱监督方法的预测结果。公平地说,所有方法都基于UNet。我们的方法的bgIoU达到91.1%,fgIoU达到67.0%,mIoU达到79.1%,bgDice达到95.3%,fgDice达到80.3%,mDice达到87.8%。与最佳的弱监督方法LocMap相比,我们的方法的mIoU提高了9.0个百分点,而mDice提高了6.6个百分点。尽管其他弱监管方法可以预测水体的局部区域,但在检测水体边界时存在误差,而我们的方法相对更准确。所比较的弱监视方法无法适当地检测小对象,而该方法在很大程度上解决了该问题。如果仅使用点标签作为正标签来训练网络,则网络很难预测水体和非水体。

8.5消融实验

本文提出的方法主要包括两个模块和一个策略,即邻居采样器模块、特征聚合模块和递归训练策略。为了证明每个模块或策略的有效性,对数据集进行了消融实验。

1)neighbor sampling的有效性:在消融实验中,其他设置不变,只改变K的值。我们将我们提出的网络的邻居采样参数 K 设置为 1 到 4,并且仅使用交叉熵和骰子损失来训练模型。对于不同K值的NFANet,为了避免其他模块的干扰,我们只选择UNet作为特征提取网络进行对比实验。特别地,当 K 的值设置为 1 时,相邻图像组退化为输入图像。如图9所示,随着K的逐渐增大,mIoU先增大后减小。随着邻域采样参数K的增大,需要考虑的邻域像素数量呈几何级数增加,导致信息冗余,每幅重建邻域图像的尺寸逐渐减小。因此,我们将 K 设置为 2,因为邻居特征需要更少的计算并获得更好的性能。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第11张图片

 图9.邻居抽样的有效性。

2)特征聚合的有效性:K设置为2,对相邻图像组中的每幅图像分别获得伪标签(等式(1)和(2))。如表 III 所示,当第 i − 个相邻图像的特征为 fi, [f1 : f2 : f3 : f4] 时,则使用特征聚合。 “RT”表示使用递归训练策略。与最佳单邻域图像的结果相比,邻域特征聚合模块将mIoU和mDice分别提高了9.29个百分点和7.02个百分点。与最差单邻域图像结果相比,邻域特征聚合模块将mIoU和mDice分别提高了14.83个百分点和11.90个百分点。由于相邻像素对预测结果的贡献不同,单个相邻图像生成的伪标签得分不同。使用CMax池化后的可视化结果如图4所示,特征聚合模块利用从邻居像素中提取的特征进行联合判断,不同邻居像素的信息相互补充,因此,它会生成更多高质量的伪标签,并最终提高水体预测结果的得分。

3) 递归训练的有效性: 我们将递归时间设置为3,并比较每个递归训练的评估指标。如图10所示,“w/o NS” 表示未使用邻居采样。从图中可以看出,无论是否使用邻居采样,mIoU和mDice都得到改善。与初步结果相比,使用递归训练后,mIoU和mDice分别增加了2.88个百分点和1.22个百分点。图11显示了三轮递归的可视化结果。从图中可以看出,第一轮的水边界上有很多毛刺,局部的小水体仍然有一些误差。经过递归训练,提高了网络捕获水轮廓的能力,并逐渐平滑了水边界。水体之间的边界也更清晰,甚至正确区分了地面真相中错误标记的小边界。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第12张图片

图10.递归训练的有效性

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第13张图片

 图 11. 递归训练的预测结果。 (a) 和 (b) 代表原始图像和地面实况。 (c)-(e)分别代表第一轮、第二轮和第三轮递归训练的结果。

4)数据拆分的影响:本节探讨数据拆分的影响。我们将全监督方法与我们的方法进行了比较(表 IV)。当训练集中的数据量从 100 增加到 600 时,全监督 mIoU 分数增加了 2.6 个百分点,我们方法的 mIoU 分数增加了 12.6 个百分点。从图 12 可以得出以下结论。随着数据量的逐渐增加,全监督方法和我们的方法都得到了改进。当数据量较小时,点级标签严重缺乏其所能提供的监督信息,邻域特征不足以区分水体和非水体,生成的伪标签错误信息较多.像素级标签提供的监督信息更加全面,使神经网络能够学习到一些关键特征。当数据量增加时,邻域特征发挥越来越重要的作用,使得神经网络能够更好地区分水体与遥感图像,伪标签的质量也得到显着提高。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第14张图片

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第15张图片

 图12。数据拆分的影响

8.6耗时和模型参数

本文实验的硬件配置包括 Intel Core i7-9700k 3.60 GHz CPU、GeForce RTX 2080Ti GPU 和 16GB RAM。 GPU 推理时间的结果如表 V 所示,是数据集的平均 GPU 推理时间。在使用递归训练提高伪标签的质量后,我们将伪标签和原始图像输入到与全监督方法一致的模型中进行训练和推理。因此,所提出方法的 GPU 推理时间与全监督方法相同。从表中可以看出,DLinkNet的推理时间是最短的。这是因为 D-LinkNet 在解码器中压缩了特征通道以降低计算成本。 MFDeepLab V3+耗时最长,由于采用多尺度特征加权融合,需要多个DeepLab V3+模型进行预测。

以上方法分为两类:基于UNet的模型和基于ResNet的模型,因此模型参数不同。在基于 UNet 的模型中,SANet 的参数最小,为 13 MB,SCS-CNN 的参数最大,为 62.9 MB。在基于ResNet的模型中,FCN的参数最小,为74.6 MB,MFDeepLab V3+的参数最大,为485.1 MB。

 尽管我们的方法产生了良好的结果,但仍然存在一些错误。如图13所示,图13a中的红色框中的整个水体区域都错过了预测。我们认为其左侧耕地与水体之间的边界是模糊的,难以区分。图13b中红色方框中的耕地被错误地预测为水体。值得注意的是,在一些难以区分水体的图像中,所提出的方法比完全监督更好。如图13c的绿色框所示,完全监督模型错误地将温室预测为水体。没有预测到图13d中的一小块水,我们的方法可以很好地找到它。

论文笔记(一)NFANET:一种新的高分辨率遥感影像弱监督水体提取方法_第16张图片

 图13。数据拆分的影响

9.结论

在本文中,我们提出了一个名为 NFANet 的网络。与传统的卷积神经网络仅使用全局或局部特征进行判别不同,NFANet 使用邻域特征,可以学习到更具代表性的特征。我们提出了一种称为邻域采样的方法来获取邻域图像。通过使用特征聚合模块,我们融合这些邻居特征以获得伪标签,并通过递归训练提高标签质量。我们在水数据集上对其进行了测试,并将其与先进的完全监督和弱监督方法进行了比较。通过仅使用点标签,所提出的方法获得了与完全监督的结果相当的结果。作为未来可能的工作,我们将对弱监督或半监督的自校正方法进行研究。此外,我们还将考虑其他不同地物的特点,设计专门的特征提取模块,进一步提高CNN的地物提取性能。

你可能感兴趣的:(水体提取,深度学习,神经网络)