Remote sensing change detection methods typically include feature extraction and changing area identification . The objective of the former is to extract meaningful features, such as color distribution, texture characteristics, and context information. The objective of the latter is to use technical algorithms to analyze previously extracted features to identify the changing regions in multitemporal remote sensing images. Based on the techniques that are utilized in these change detection methods, we divide the remote sensing change detection methods into traditional change detection methods and deep learning change detection methods.
变化检测主要分为两个部分——特征提取+变化区域识别.
特征提取: 现阶段主要使用深度学习方法进行特征提取。发展历程如下(节选之SNUNet-CD)
First, U-Net takes the lead and establish a benchmark model; then, the siamese network is used and become the standard method for change detection. To improve the performance of change detection, there are a lot of efforts on deep feature extraction and refinement. In , the pyramid model is used for extracting multiscale features; deep super- vision is used to enhance the representation and discrimination capabilities of shallow features; and attention mechanisms are used to refine features and obtain better feature representations, such as spatial and channel attention, self-attention, and dual attention(本文), and so on.
变化区域识别: 当通过得到和输入图像尺寸一样大的特征图后,便是如何通过特征图得到最终的差异图,主要有两种方法:
1.基于分类 的方法:变化检测可以看为分类问题,一般方法是为图像的每个像素点分配更改分数,其中变化像素点的分数高于未变化像素点的分数。
这种情况下,网络一般输出的是一个双通道的特征图,第一个通道代表像素点为0的概率,第二个通道代表像素点为1的概率。Pytroch中可以通过torch.argmax()来获得差异图。
2.基于度量 的方法:需要学习一种度量方法,使得通过这种度量方法让未变化的像素点距离变近、变化的像素点距离变远。常用的损失函数有contrastive loss 和 triplet loss。其中因为triplet loss利用了像素之间的空间信息,所以triplet loss比contrastive loss好。
这种情况下往往通过欧式距离得到一个单通道的表示特征之间距离的特征图,可以通过阈值分割的方法得到最终的差异图。
变化检测的一个主要难点在于最终的差异图不应当包含“非语义变化”,如摄像机运动、传感器噪声或光线变化引起的变化。变化检测的另一个困难是,“变化”的定义可能会根据应用和人的主观意识而变化。例如,在许多情况下,从不同季节获得双时间图像,如下图所示。
“变化”被定义为建筑物和汽车等人造设施的变化,而季节变化被视为干扰因素。
本文针对变化检测中存在的两个问题:对伪信息变化(如噪声等)缺乏鲁棒性 和 样本类别不平衡 (变化类远小于未变化类),提出了解决方案:利用Dual attention来capturing long-range dependencies,提高模型的鲁棒性,通过往损失函数添加权重来解决样本类别不平衡(作者通过可视化实验论证了损失函数可以提高模型的鲁棒性)。
注: 关于long-range dependencies
的含义,我在网上查到的解释如下面向所有人的深度学习注意力机制综合指南:
我对long-range dependencies
的理解是让两个长距离或者短距离的像素点产生关系。就像下图中的点1像素点的落在耕地上,而其它表示耕地的像素点还有很多,利用attention等机制来使得表示耕地的这些像素点产生联系即long-range dependencies。同样也可以使得表示建筑物的像素点之间产生联系。这样有利于利用像素点之间的关系来进行特征提取。(图片来源STANet通过BAM提取图片得到)
Siam Conv网络结构选择方面,我们选择了两个基本网络:VGG16和ResNet50。对于VGG16,我们只保留前五个卷积模块,并删除最后一个模块的最大池层。在前五个卷积模块中,卷积核的大小为3×3。对于ResNet50,我们删除了下采样操作,并在最后两个ResNet块中使用扩展卷积。然后,将由空间注意力模块和通道注意力模块组成的双注意力模块连接到Siam Conv以形成完整的DSANet。
一开始我以为这是这种类型的空间注意力机制,但很明显不是。
作者这里采用的是和Self-attention类似的结构,和Self-attention的区别是一是Self-attention在得到KQT后有一个均值化操作,作者把这个均值化操作给去掉了;二是最后得到的Fsa=nFsFc+F,self-attention中n=1,作者让n变成了可学习的参数(初始化为0),作者在论文中这样解释为何要这样操作:
每个位置处的所得特征Fsa是所有位置处的特征和原始特征的加权和的结果。因此,它具有全局上下文视图,并基于空间注意力图选择性地聚合上下文。相似的语义特征相互促进,这提高了类内的紧凑性和语义一致性,并使网络能够更好地区分变化和伪变化。
下图是STANet论文中提出的BAM模块,该模块和Self-attention结构一样,保留了均值化操作。通过阅读两篇论文源码发现Spatial Attention Mechanism
和BAM
差别在于没有均值化操作和n取得固定值,恰好STANet作者在BAM结构图中也没有把均值化操作画出来,我觉得下图中的结构比作者画的图更加细致,更容易理解。
该模块和Spatial Attention Mechanism的区别在于F没有分别通过三个卷积层得到Fa、Fb、Fc。我觉得这样做的目的在于Spatial Attention Mechanism采用卷积操作是因为它设计的目的在于每一个通道上的像素点的空间位置上的信息。而Channel Attention Mechanism设计目的在于融合多个通道的信息,故不需要卷积操作,而需要Reshape操作使得多个通道融合在一起。
作者这样解释采用该结构的目的:
每个高级特征通道映射可以被视为对地面对象的响应,并且语义响应彼此相关。通过利用通道图之间的相关性,可以增强相互依赖的特征图,并且可以改进具有特定语义的特征表示,以更好地区分变化。因此,我们构建了一个通道注意模块,用于建立通道之间的关系。
每个通道的最终特征是所有通道的特征和原始特征的加权和的结果,这模拟了特征图之间的长期语义依赖性。它增强了特征的可识别性,并突出了变化区域的特征表示。
网络中的这一部分是用来解释损失函数的。首先作者将传统的对比损失函数
通过添加权重的方式修改为:
其中m1和m2作者代码中取得固定值。w1和w2分别是改变和未改变像素对频率的倒数。这样设计权重便会使得类别损失函数在优化是更加倾向于像素点相对较少的类别。
同时作者参考深度监督,添加了两个损失函数,最终得到的损失函数如下。
这里的Lsa带入的是Spatial Attention Mechanism得到的两幅特征图得到的特征距离、、Lca带入的是Channel Attention Mechanism得到的两幅特征图得到的特征距离、Le带入的是将通过Spatial Attention Mechanism和Channel Attention Mechanism得到的特征图相加得到的两幅特征图之间的特征距离。
注通过阅读代码发现在通过Spatial Attention Mechanism、Channel Attention Mechanism后还有几个卷积层,作者未在结构图中画出。
这里作者采用的是度量方式,将通过Spatial Attention Mechanism和Channel Attention Mechanism得到的特征图相加得到的两幅特征图通过F.pairwise_distance
或者1 - F.cosine_similarity
得到的单通道特征图再通过上采样作为最终的差异图。
作者在代码中得到的是热力图。
1.论证数据集中类别数据不平衡
作者统计了CDD和BCDD数据集中的变化和未变化的像素点数量,得到变化和未变化的像素点数量不平衡。
2.消融实验
注: 这里的L2、cos指的是度量得到的特征图之间的度量函数。代码中也提供了L1.
如图6所示,我们可视化了两个经过训练的DASNet网络的输出,除了不同的距离度量之外,它们都以相同的方式设置,并且我们基于各种距离度量获得了距离图。对于同一特征层,使用余弦相似性获得的接收地图的背景噪声更大,其描述变化边界的性能较弱。
因此,该度量在排除噪声变化方面的性能较弱。通过使用二阶欧几里得距离获得的结果图具有更干净的背景和更高的前背景对比度,这使得模型具有更强的变化识别性能。
为了验证所提出的损失函数对伪变化的鲁棒性,我们使用传统的对比损失将Siam
Conv的输出结果可视化。同样,我们还使用WDMC损耗可视化了Siam Conv的输出结果。使用Siam
Conv是为了避免双重注意机制对结果的影响。从图8中可以清楚地看出,用WDMC损耗训练的网络更能抵抗伪变化。使用WDMC损耗训练的网络能够更好地区分季节变化、传感器变化等引起的伪变化。然而,传统的对比损耗不能很好地做到这一点。
将双注意模块添加到暹罗网络克服了WDMC损失函数不能在提高召回率的同时提高精度的问题。
空间注意机制和通道注意机制都提高了网络的准确性。将这两种注意机制结合起来,可以充分利用特征的空间信息和信道信息,提高网络的综合性能。
3.Dual attention结果可视化
这里面作者用了我还是不太了解的方法展示了Dual attention的优秀性能。由于采用方法不太清楚,不过多介绍。以后懂了再回来填坑。
4.对比实验
从表格结果可以看出本文提出的方法优于其它方法。
从实验结果可视化可以看出(以下为论文翻译):
在图12中,第一行展示了我们的模型在识别复杂场景中的小变化方面的性能。第二行中更改前后的图像颜色变化很大,但这对我们的网络影响非常有限;在第三行改变前后的图像中存在许多伪改变干扰,而第四行左下角的变化不容易观察到。我们的方法在两种条件下都表现良好。
根据图13,与其他变化检测方法相比,所提出的方法更关注感兴趣的变化区域。由于BCDD是用于建筑变更检测的数据集,因此只需识别建筑变更。
其他变化,如道路变化,可被视为伪变化 。第一行和第三行清楚地表明,本文提出的方法不仅在识别变化方面表现良好,而且对伪变化 的干扰表现出令人满意的抵抗力。