论文题目: Multiscale Feature Fusion Network Incorporating 3D Self-Attention for Hyperspectral Image Classification
作者: 中北大学
期刊: 中科院二区 Remote Sensing
摘要:
近年来,基于深度学习的高光谱图像(HSI)分类方法取得了巨大成功,卷积神经网络(CNN)方法在HSI分类任务中取得了良好的分类性能。然而,卷积操作仅适用于局部邻域,并且在提取局部特征方面是有效的。长距离的交互特征难以捕捉,在一定程度上影响了分类的准确性。同时,来自HSI的数据具有三维、冗余和噪声的特点。为了解决这些问题,我们提出了一种集成了 3D 多头自注意力的 3D 自注意力多尺度特征融合网络(3DSA-MFN)。 3DSA-MFN首先使用不同大小的卷积核提取多尺度特征,对特征图的不同粒度进行采样,有效融合特征图的空间和光谱特征。然后,我们提出了一种改进的 3D 多头自注意力机制,为自注意力分支提供局部特征细节,并充分利用输入矩阵的上下文。为了验证所提出方法的性能,我们将其与三个公共数据集上的六种当前方法进行了比较。实验结果表明,所提出的3DSA-MFN实现了有竞争力的分类并突出了HSI分类任务。
贡献:
3DSA-MFN 网络框架。该方法通过降维和窗口裁剪对原始数据进行预处理,然后将处理后的数据发送到多尺度特征融合、3DCOV_attention等模块进行特征提取,最后在多个全连接层上输出分类结果。
我们首先将处理后的数据样本通过两个多尺度特征融合模块来提取高光谱图像的特征,同时减少特征图的形状并增加特征图的数量。然后,我们不断地将输出特征图通过三个 3DCOV_attention 模块传递,以在对全局依赖关系建模的同时进一步提取高光谱图像特征。同时,我们在不同的 3DCOV_attention 模块中使用步骤 2 中的 3D 卷积来改变特征图形状。最后,输出的特征图经过多个全连接层,输出最终的分类结果。
我们使用不同大小的卷积核对输入特征图进行多尺度特征提取,最后将不同分支提取的特征结果添加到输出,对特征图的不同粒度进行采样,有效融合特征图的空间和光谱特征。
当我们输入大小为{H, W, C, D}的特征图时,首先将特征图发送到卷积核大小为1×1×1、3×3×3、5×5×的CBR模块中的5(依次执行3D卷积、BatchNorm、Relu激活函数),filters为D/2,得到大小为{H, W, C, D/2}的特征图。将得到的特征图发送到卷积核大小分别为1×1×1、3×3×3和5×5×5的CBR模块,滤波器为D。此时,三个特征图为得到sizes {H, W, C, D},最后将三个结果加到输入中,得到最终的输出特征图。
如图3所示,P由三个随机位置码相加得到,其中H、W、C、Q矩阵相同。进行reshape操作后,位置码乘以Q矩阵得到位置码P。
给定形状{H, W, C, D}的特征图x,我们首先通过三个大小为1×1×1的卷积核和一个步长为1×1×1的三维卷积得到三个形状为 {H, W, C, D} 的特征图。对它们进行reshape操作后,我们得到三个矩阵Q、K和V,大小为{N, D/N, HWC},其中保留了上下文信息和局部特征细节,N是个数的头。然后,矩阵 Q 和 K 相乘,得到一个大小为 {N, HWC, HWC } 的注意力矩阵。为了确认图像之间的位置信息,我们在这里引入位置编码信息。初始化三个大小为 {N, D/N, H, 1,1}, {N, D/N, 1, W,1}, {N, D/N, 1, 1,C} 的矩阵。需要注意的是,这里的H、W、C是Q矩阵的H、W、C。如图3所示,我们首先将三个位置矩阵相加得到一个大小为{N, D/N, H, W, C}的矩阵,进行整形操作,乘以Q矩阵得到最终位置编码矩阵P。位置编码矩阵P加入注意矩阵,在Softmax激活函数后乘以矩阵V,输出一个形状为{N, D/N, HWC}的矩阵。执行整形操作后,输出为大小为 {H, W, C, D} 的特征图。
在卷积神经网络(CNN)中,卷积运算基于离散卷积算子。它具有空间局部性和变化的特性,例如平移和共享权重。它现在被广泛用于计算机视觉任务。然而,卷积操作只在局部邻域起作用,在提取局部特征方面是有效的。反过来,有限的感受域阻碍了全局依赖的建模,难以捕捉全局表示,导致全局特征的丢失。然而,由于自注意力可以捕获远距离的交互,因此它被广泛用于计算机视觉。
创建了一个 3DCOV_attention 块,它将提取局部特征的卷积图与可以建立全局依赖关系的自注意力特征图相结合,以增强局部感受野,同时捕获长距离的交互。其中CBR 模块依次执行三维卷积、BatchNorm 和激活函数 (Relu) 等。
如图4所示,整个模块由三维卷积、BatchNorm、激活函数(Relu)、LayerNorm、concatenate、3DMHSA等组件组成。
(略)
在这项研究中,我们为 HSI 分类任务提出了一种称为 3DSA-MFN 的网络模型。该网络包括三维多头注意力机制、多尺度特征融合等模块。我们首先使用 PCA 算法来降低频谱的维数并去除噪声和冗余数据。在特征提取阶段,我们首先使用多尺度特征融合模块,首先从不同尺度提取HSI的特征信息。然后,我们将多头自注意力从二维推广到三维,并对其进行有效改进,使其能够充分利用输入矩阵的上下文信息。然后,我们使用改进的 3D-MHSA 对卷积神经网络进行改进,得到 3DCOV_attention 模块。该模块在提取局部特征的同时建立远程依赖,可以同时提高局部感受野,捕捉远距离交互,提高模型的分类性能。为了测试所提出方法的有效性,我们在三个公共数据集上进行了实验。与 SVM、3D-CNN、SSAN、SSRN、HSI-BERT 和 SAT 等方法相比,3DSA-MFN 在 SA 和 UP 数据集上取得了最好的分类性能。对于 IN 数据集,分类性能略低于 HSI-BERT,达到了与 SAT 相当的分类性能。具体而言,对于 SA、IN 和 UP 数据集,3DSA-MFN 的 OA 值分别为 99.92%、99.52% 和 99.77%,AA 值分别为 99.84%、99.32% 和 99.68%。在未来的工作中,我们将专注于优化 HSI 分类任务中的注意力机制和对 HSI 的小样本进行分类。