读书笔记:基于Transformer的 Siamese 网络用于变化检测

摘要:

本文提出了一种基于变压器的连体网络架构(缩写为 ChangeFormer),用于从一对共同配准的遥感图像中进行变化检测(CD)。与最近基于全卷积网络 (ConvNets) 的 CD 框架不同,所提出的方法在 Siamese 网络架构中将分层结构的 Transformer 编码器多层感知 (MLP) 解码器相结合,以有效地渲染所需的多尺度远程细节获得准确的 CD。在两个 CD 数据集上的实验表明,所提出的端到端可训练 ChangeFormer 架构比以前的同类架构实现了更好的 CD 性能。

#文章
https://arxiv.org/abs/2201.01293
#代码地址
https://github.com/wgcban/ChangeFormer

引言:

现有的最先进(SOTA)CD 方法主要基于深度卷积网络(ConvNets),因为它们能够提取强大的判别特征。由于必须在空间和时间范围内捕获远程上下文信息以识别多时间图像中的相关变化,因此最新的 CD 研究一直集中在增加 CD 模型的感受野上。因此,已经提出了具有堆叠卷积层、扩张卷积和注意机制(通道和空间注意)的 CD 模型 [1]。尽管基于注意力的方法在捕获全局细节方面很有效,但它们很难在时空中关联远程细节,因为它们使用注意力来重新加权通过 ConvNets 在通道和空间维度上获得的双时间特征。 Transformers(即非本地自注意力)最近在自然语言处理 (NLP) 中的成功促使研究人员将 Transformers 应用于各种计算机视觉任务。继 NLP 中的变压器设计之后,针对各种计算机视觉任务提出了不同的架构,包括图像分类和图像分割,例如 Vision Transformer (ViT)、SEgmentation TRansformer (SETR)、Vision Transformer using Shifted Windows (Swin)、Twins [2 ] 和 SegFormer [3]。这些 Transformer 网络具有比深度 ConvNets 更大的有效感受野 (ERF) - 在图像中的任何像素对之间提供比 ConvNets 更强的上下文建模能力。尽管 Transformer 网络具有更大的感受野和更强的上下文塑造能力,但针对 CD 的 Transformer 的工作却很少。在最近的一项工作 [4] 中,Transformer 架构与 ConvNet 编码器 (ResNet18) 结合使用,以增强特征表示,同时保持整体基于 ConvNet 的特征提取过程到位。在本文中,我们表明这种对 ConvNets 的依赖是不必要的,具有轻量级 MLP 解码器的分层变换器编码器可以很好地用于 CD 任务。

方法

所提出的 ChangeFormer 网络由三个主要模块组成,如图 1 所示:Siamese 网络中的分层转换器编码器,用于提取双时图像的粗略和精细特征,四个特征差异模块用于计算多个尺度的特征差异,以及轻量级MLP 解码器融合这些多级特征差异并预测 CD 掩码。
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第1张图片

a)分层Transformer Encoder

给定输入的双时间图像,分层变换器编码器生成类似于 ConvNet 的多级特征,具有 CD 所需的高分辨率粗特征和低分辨率细粒度特征。
输入H* W*3,输出 H/2i+1 * W/2i+1 *Ci,
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第2张图片

Transformer Block

Transformer 编码器的主要构建块是自注意力模块。
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第3张图片
在原始工作 [5] 中,self-attention 估计为
在这里插入图片描述
其中 Q、K 和 V 分别表示 Query、Key 和 Value,并且具有相同的 HW × C 维度。
然而,eqn 的计算复杂度是
在这里插入图片描述,它禁止在高分辨率图像上应用。

为了降低eqn的计算复杂度。我们采用[6]中介绍的Sequence Reduction过程,它利用缩减率R来减少序列HW的长度,如下所示:
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第4张图片
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第5张图片
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第6张图片

为了为转换器提供位置信息,我们使用两个 MLP 层以及 3 × 3 深度卷积,如下所示:
在这里插入图片描述
读书笔记:基于Transformer的 Siamese 网络用于变化检测_第7张图片
我们的位置编码方案与以前的变压器网络(如 ViT [7])中使用的固定位置编码不同,这允许我们的 ChangeFormer 获取与训练期间使用的分辨率不同的测试图像。

Downsampling Block

读书笔记:基于Transformer的 Siamese 网络用于变化检测_第8张图片

给定来自分辨率为 H 2i+1 × W 2i+1 × Ci 的第 i 个变压器层的输入补丁 Fi,下采样层对其进行收缩以获得分辨率为 H 2i+2 × W 2i+2 × Ci+1 的 Fi+1这将是第 (i + 1) 个 Transformer 层的输入。为了实现这一点,我们使用了一个 3 × 3 Conv2D 层,内核大小 K = 7,步幅 S = 4,填充 P = 3 用于初始下采样,K = 3,S = 2,P = 1 用于其余部分.

Difference Module

我们利用四个差分模块来计算来自分层变换器编码器的变化前和变化后图像的多级特征的差异,如图 1 所示。更准确地说,我们的差分模块由 Conv2D、ReLU、BatchNorm2d(BN ) 如下:
在这里插入图片描述
其中 Fipre 和 Fipost 表示来自第 i 层的变化前和变化后图像的特征图,Cat 表示张量连接。不同于 [4] 中计算 Fipre 和 Fipost 的绝对差异,所提出的差异模块在训练期间学习每个尺度的最佳距离度量 - 从而获得更好的 CD 性能

b)MLP Decoder

我们使用一个带有 MLP 层的简单解码器,它聚合多级特征差异图来预测变化图。所提出的 MLP 解码器包括三个主要步骤

读书笔记:基于Transformer的 Siamese 网络用于变化检测_第9张图片

MLP & Upsampling

我们首先通过 MLP 层对每个多尺度特征差异图进行处理,以统一通道维度,然后将每个维度上采样到 H/4 × W/4 的大小,如下所示:
在这里插入图片描述

Concatenation & Fusion

然后通过 MLP 层连接和融合上采样的特征差异图,如下所示:
在这里插入图片描述

Upsampling & Classification

我们利用 S = 4 和 K = 3 的 2D 转置卷积层将融合特征图 F 上采样到 H × W 的大小。最后,通过另一个 MLP 层处理上采样的融合特征图以预测变化掩码 CM分辨率为 H × W × Ncls,其中 Ncls (=2) 是类别数,即变化和不变。这个过程可以表述如下:

读书笔记:基于Transformer的 Siamese 网络用于变化检测_第10张图片

结论

在本文中,我们提出了一种基于变压器的 CD 连体网络。通过在具有简单 MLP 解码器的 Siamese 架构中使用分层转换器编码器,我们的方法优于其他几种最近使用非常大的 ConvNet(如 ResNet18,U-Net等)的 CD 方法,我们还在 IoU、F1 分数和整体准确度方面展示了比最近基于 ConvNet(FC-EF、FC-Siam-DI 和 FC-SiamConc)、基于注意力的(DTCDSCN、STANet 和 IFNet)更好的性能,和基于 ConvNet+Transformer (BIT) 的方法。因此,这项研究表明没有必要依赖 deepConvNets,并且具有轻量级解码器的 Siamese 网络中的分层变换器可以很好地用于 CD。

你可能感兴趣的:(阅读笔记,变化检测,深度学习)