TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment

TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment and Entropy Minimization基于分组特征对齐和熵最小化的云检测无监督域自适应

  • 0.摘要
  • 1.概述
  • 2.方法
    • 2.1.拟议的UDA框架
    • 2.2.GFA域自适应
    • 2.3.EM域自适应
    • 2.4.网络优化学习
  • 3.实验
    • 3.1.实验设置
    • 3.2.消融实验
    • 3.3.与最新方法的比较

论文下载
开源代码

0.摘要

大多数基于卷积神经网络(CNN)的云检测方法都建立在监督学习框架上,该框架需要大量像素级标签。然而,为海量遥感图像手动注释像素标签既昂贵又耗时。为了降低标记成本,我们提出了一种无监督域自适应(UDA)方法,将源卫星标记图像上训练的模型推广到目标卫星的未标记图像。为了有效解决跨卫星图像的域偏移问题,我们开发了一种新的基于分组特征对齐(GFA)和熵最小化(EM)的UDA方法来提取域不变表示,以提高跨卫星图像的云检测精度。拟议的UDA方法在“Landsat-8→ ZY-3”“和”GF-1→ ZY-3“域适应任务上进行了评估。实验结果证明了我们的方法对现有最先进的UDA方法的有效性。

1.概述

随着遥感技术的发展,世界范围内发射了大量用于地球观测的光学遥感卫星。不幸的是,大约66%的地球表面被云覆盖[1],这导致光学卫星传感器获取的大多数遥感图像受到云污染。被云污染的遥感图像被视为低质量产品,这严重干扰了图像分析任务,例如土地覆盖分类[2]、图像匹配[3]、目标检测[4]和三维曲面生成[5]。因此,云检测是评估遥感图像质量的重要预处理步骤[6]。
近年来,深度卷积神经网络(DCNN)方法已广泛用于遥感图像的云检测。提出了许多有效的云检测方法,例如基于超像素的分类方法[7]-[9]和基于端到端语义的分割方法[10]-[12]。这些基于CNN的云检测方法大多基于监督框架,该框架严重依赖于具有图像级[7]-[9]或强像素注释[10]-[12]的大量训练数据。
然而,标签标注是一项艰巨的任务,需要专家级的人类知识,尤其是为大量遥感图像手动标记像素级云和非云标注,这既昂贵又耗时。在我们之前关于ZY-3缩略图上云覆盖估计的工作[6],[13]中,我们还站在有监督的CNN框架上进行云检测。手动标记ZY-3缩略图的云掩码非常繁琐和耗时。从大小为1k×1k的云层覆盖的红、绿、蓝(RGB)场景缩略图中标记像素注释通常需要1-2小时。因此,迫切需要使用无监督学习方法来减少人工标记数据集的工作量。
克服这一限制的一种有效方法是利用转移学习策略将知识从标记数据集转移到未标记数据集[14]。然而,由于域转移问题,例如分辨率和频谱差异,以及跨卫星遥感图像之间的土地覆盖类型差异,基于源卫星标记数据集训练的CNN模型很难推广到目标卫星图像。近年来,提出了无监督域自适应(UDA)作为转移学习的一种特殊情况,以解决源域(标记数据集)和目标域(未标记数据集)之间的域转移问题[15]-[17]。基于对抗学习的UDA已被证明是通过源域和目标域之间的分布对齐来解决域转移问题的有效方法[18]。基于对抗学习的UDA的关键思想是学习域鉴别器来区分源域数据和目标域数据的特征,从而帮助语义分割模型学习域不变特征表示,以混淆域鉴别器[19]。UDA方法的分布对齐可以在不同的表示层上实现,例如输入级(像素级)[20]、特征级[21]或输出级[14]、[16]、[17]。这些UDA方法在“合成”上取得了良好的性能→ “真实”案例
然而,只有少数作品关注遥感图像,特别是跨卫星遥感图像。在遥感图像分割中,基于UDA的工作,如[22]、[23]和[24],大多使用样式转换方法[25]来生成虚假源域,其中数据视觉外观与目标域相似。换句话说,这些方法侧重于在原始输入级别而不是在特征和输出级别执行分布对齐。此外,这些方法在数量有限的土地覆盖类型数据集上进行了评估。由于全球地貌特征不同,采集的卫星图像中存在多个子域。如图1所示,同一颗卫星在不同地点获取的ZY-3图像显示了不同的颜色、云类型和土地覆盖类型。因此,由于源域和目标域中的子域复杂多样,仅基于样式转换方法与输入级进行分布对齐可能不是最优的。考虑到跨卫星图像语义信息的一致性,在特征级或输出级进行域对齐可能是减少源和目标卫星数据域之间域差距的一种有希望的方法。
在本文中,我们重点采用UDA方法将知识从标记的云量评估数据集转移到未标记的ZY-3数据集。换句话说,我们的目标是从源标记的域卫星数据集学习云检测模型,该数据集在目标ZY-3数据集上表现良好。为了减少源和目标卫星数据域之间的域差距,如图2所示,我们提出了一种基于特征和输出级对齐策略的有效UDA框架,用于跨卫星遥感图像的云检测。与以往基于整体特征对齐(HFA)域适配[18]、[21]的特征级对齐策略不同,我们提出了一种分组特征对齐(GFA),将中间特征映射划分为不同的组,并应用基于对抗学习的域适配,以分组方式对齐源数据和目标数据之间的特征映射。此外,我们没有使用熵最小化(EM)[16],[26]作为主要的域适应策略来减少域偏移,而是在输出级别引入EM作为辅助域适应策略,以在源域和目标域之间对齐输出预测的加权自信息图,这显著提高了源域数据集训练模型在目标数据集上的泛化能力。
这项工作的主要贡献总结如下。

  • 我们提出了一个有效的UDA框架,该框架具有特征和输出级对齐策略,用于目标卫星遥感图像的云检测。
  • 我们提出了一种GFA域自适应方法,有效地最小化源域和目标域之间的特征分布距离,以获得域不变的特征表示。
  • 我们引入了EM目标,以在输出级别弥合源和目标数据集之间的域差距,从而有效地对目标预测实施高预测确定性(低熵)。

2.方法

2.1.拟议的UDA框架

TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第1张图片

图2所示。提出了基于UDA的跨卫星遥感影像云检测框架。我们提出了GFA策略,通过使用对抗学习策略,在网络的多个中间层有效地最小化源和目标特征分布之间的距离。此外,我们使用对抗性训练来增强加权自信息映射Ix的一致性。红色箭头用于源域,绿色箭头用于目标域。最佳观赏颜色。

由于域差异,例如图像分辨率、云状的高动态范围和背景土地覆盖类型,在源域上训练的基于CNN的方法很难概括目标域。在本文中,我们采用域自适应策略来减少源和目标卫星图像之间的域差异。受Hoffman等人[15]、Tuan Hung等人[16]和Tsai等人[17]的启发,我们开发了一种用于跨卫星图像云检测的UDA方法。如图2所示,我们的UDA框架在特征级别和输出级别上实施域对齐,以鼓励在源域上训练的语义分割网络很好地推广到目标域。在正向传播过程中,源域和目标域样本都通过共享分割网络。
具体来说,我们提出了一种GFA策略来执行域自适应。如图2所示,我们将特征图分为不同的组,并分别对每组特征图应用基于对抗学习方法的域自适应。为了有效地进行特征对齐,在分割网络的多个中间层应用了GFA域自适应。此外,最先进的方法验证了执行输出级对齐有助于减少域偏移问题[16]、[26]、[27],这进一步促使我们开发一种有效的输出级预测自适应方法,以提高目标图像上的云检测精度。在本文中,我们介绍了EM方法来对齐源域和目标域之间输出预测的加权自信息映射(Isx和Itx[16],以进一步改进我们模型的泛化。
TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第2张图片

图3所示。提出了用于云检测的GFA和EM域适应方法:(a)未经适应训练的模型的源和目标域场景结果;(b)和©分别用HFA和GFA自适应训练的模型对同一目标域场景的结果;(d)使用GFA和EM自适应训练的模型在相同目标域场景上的结果。

图3中的结果表明,应用域自适应后,预测的准确性显著提高。如图3(b)和(c)所示,拟议的GFA域自适应比传统的HFA域自适应更有效[15]、[21]。然而,在检测结果中仍然存在大量误分类像素。在输出级添加EM域自适应后,云检测结果得到进一步改善,如图3(d)所示。
目标图像上预测结果的熵图与源图像上的熵图相似,因为云检测模型对对象内部区域产生高预测确定性(低熵),对沿对象边界产生低预测确定性(高熵)

2.2.GFA域自适应

最近,基于特征对齐的方法在遥感图像分类中取得了巨大成功[28],[29]。然而,由于图像分辨率和频谱差异以及较大的外观差距,跨卫星遥感图像语义分割的特征级对齐仍然具有挑战性。受分组卷积[30]-[32]和分割注意块[33]的启发,我们提出了一种GFA策略,以有效地最小化源和目标特征域分布之间的距离。如图2所示,我们将中间特征图分成一系列组,并使用对抗性学习策略分别为源数据和目标数据之间的每组应用域自适应。形式上,给定两个特征映射,源域特征映射Fks∈ RW×H×C和目标域特征映射Fkt∈ RW×H×C是从分割网络的第k个中间层提取的

  • 特征图分组:为了有效地对齐特征,我们首先沿通道维度将这两个特征图拆分为一系列子特征图
    在这里插入图片描述
    其中R=1,2,4…2n为特征映射组的数量,f(k,r)s∈ RW×H×(C/R)和f(k,R)t∈ RW×H×(C/R)分别表示从第k个中间层提取的源特征图和目标特征图的第r组子特征图。然后,使用域对抗训练策略将特征对齐应用于这些分组特征图。

  • 特征图对齐:基于对抗式学习的UDA已被证明是解决域转移的有效方法[18]。在对抗学习框架下,我们将UDA任务表述为分组特征映射空间中源和目标之间分布距离的最小化。为此,我们设计了一个标准的二进制分类网络作为鉴别器Dfma。形式上,给定两个输入分组子特征映射f(k,r)s和f(k,R)t,我们最小化交叉熵域分类损失[34]来训练鉴别器D(k,r)fma。目标函数定义如下:
    TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第3张图片
    同时,训练分割网络的对抗目标定义如下
    在这里插入图片描述
    其中,LadvD(k,r)fma表示从第k中间层提取的目标特征图的rth分组子特征图的对抗目标。最重要的是,LadvD(k,r)fma用于混淆子分类器D(k,r)fma,以鼓励分割网络G生成域不变特征。第k中间层的GFA损失定义为所有分组子特征图的对抗性损失总和
    在这里插入图片描述

2.3.EM域自适应

如图3(c)所示,在多个中间层应用GFA域自适应后,目标图像上模型的预测结果显著改善。然而,在预测的地图中仍然存在许多错误分类的像素。为了进一步提高源训练模型的泛化性能,受到Tuan Hung等人[16]Tsai等人[26]和Pan等人[27]的启发,我们引入EM策略来缓解域差异。

  • 加权自信息映射:如图3所示,在没有EM域自适应的情况下,在源域图像上训练的分割网络往往会分别输出源图像和目标图像的过度自信(低熵)和欠自信(高熵)预测。因此,我们使用对抗性训练框架,通过强制执行与源域相似的目标域的熵分布来进行输出级域自适应。与[16]类似,我们在加权自信息图Isx,Itx∈ RH×W×C上执行对抗性适应,定义如下:
    在这里插入图片描述
    其中,Psx(w,h,c)和Ptx(w,h,c)是在共通道位置(w,h)处的源图像和目标图像的预测分数。方程(6)和(7)可以被视为香农熵[16]的解纠缠,其定义为:
    在这里插入图片描述
  • 自信息图的对齐:与GFA类似,我们使用对抗训练框架进行输出级域适应。用于加权自信息地图对齐的鉴别器具有与GFAs中使用的鉴别器相同的结构。在域对抗训练中,我们还最小化交叉熵域分类损失[34],以训练鉴别器Dem。目标函数定义如下:
    在这里插入图片描述
    此外,训练分割网络的对抗目标是
    在这里插入图片描述

2.4.网络优化学习

如图2所示,我们对分割网络G有两个输入数据集,即有标记的源域数据集Xs = {(xsi, ysi)}Nsi=1,无标记的目标域数据集Xt = {(xtj, ytj)}Ntj=1,其中xsi和xti分别代表源样本和目标样本,ysi是xsi的关联标签。在训练过程中,分割网络首先使用标记图像xsi进行训练,并通过标准的交叉熵损失进行监督
在这里插入图片描述
式中psi = G(xsi)为预测结果。当我们将未标记的目标图像xti转发到分割网络G时,它由多个GFA损失{Lkgfa}Kk=1和一个EM对抗性损失LadvDem监督。因此,分割网络G的最终训练目标LG定义如下:
在这里插入图片描述
其中λgfa和λem为使目标LG最小的权值。
此外,目标样本不仅用于训练分割网络G,还用于最小化目标{LD(k,r)fma}K,Rk=1,r=1和LDem分别训练{D(k,r)fma}K,Rk=1,r=1和Dem,以实现域适应。

3.实验

3.1.实验设置

  • 网络结构

生成模型中,我们使用DeepLabv2[37]作为我们的主云检测框架,采用ResNet-101[38]作为骨干架构,提取包含语义信息的高级特征。DeepLabv2使用了atrous空间金字塔池化(ASPP)模块[37],该模块融合了多个不同采样率的并行扩展卷积层[39],以捕获多尺度特征图,用于鲁棒云检测。预测的概率映射为输入图像的1/8 × 1/8 s,并直接上采样到与输入图像相同的大小,从而得到最终的预测结果。
对于判别模型,我们设计了一个标准的二值分类网络作为判别器来对齐源样本和目标样本之间的特征映射和加权自信息映射。所设计的鉴别器的详细结构如图4所示。有4个卷积层,4 × 4核,{256,192,128,64}通道。每个卷积层拥有相同的步幅(步幅= 2),并同时被一个泄漏纠正线性单元(ReLU)激活(斜率= 0.2)和一个dropout层(dropout rate = 0.5)跟随。通过卷积运算,设计一个全局平均池化层和一个全连接层来获得置信度得分。

  • 训练细节

我们提出的UDA框架是在搭载NVIDIA GTX 1080 Ti GPU的Ubuntu 14.04操作系统下的Pytorch框架上训练的。采用随机梯度下降(SGD)算法[40]对发电机网络进行优化。生成器网络和鉴别器网络的学习率分别为2.5 × 10−4和1.0 × 10−4。所有网络的训练衰减策略都是“poly”[41]。小批量大小、动量和重量衰减数分别为4、0.9和5 × 10−4。为了提高性能,我们使用在ImageNet数据集[42]上预训练的模型来微调骨干网(ResNet-101)的参数。
在训练过程中,我们对“Landsat-8→ZY -3”域适应任务设置λgfa = 0.001, λem = 0.01, R = 4,而对“Gf-1→ZY -3”域适应任务设置λgfa = 0.0005, λem = 0.01, R = 2。对于所有的域适应任务,即K = 2,我们分别在RestNet-101的Conv4_x层和Conv5_x层的末端特征映射上应用GFA域适应。在“Landsat8→ZY -3”和“GF-1→ZY -3”域适应任务上分别进行60k和40k迭代训练。

3.2.消融实验

TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第4张图片

3.3.与最新方法的比较

TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第5张图片
TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第6张图片
TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment_第7张图片

你可能感兴趣的:(遥感影像云检测,遥感,图像处理,神经网络,迁移学习,生成对抗网络,计算机视觉)