作者: Mingsong Li, Yikun Liu, Guangkuo Xue, Yuwen Huang, and Gongping Yang
原文链接:https://ieeexplore.ieee.org/document/9933425
代码链接:https://github.com/lms-07/CVSSN
因本人是自己学习复习查看用,采用的是机翻,如有不对,还请自行翻译。
高光谱图像包含了400 ~2500nm范围内的可见光、近红外(NIR)和短波红外(SWIR)光谱[1]、[2]等数百个窄带,能够记录观测场景丰富的光谱特征和空间信息。因此,HSI被广泛应用于城市发展、精准农业、环境管理[3]-[5]等领域。此外,高光谱图像分类(hyperspectral image classification, HSIC)是许多地球观测(EO)任务[6]的核心技术,其目标是根据给定的土地覆被分类集合,利用HSI特征为每个HSI像元分配一个唯一的语义标签。
在HSIC社区早期的研究中,针对HSIC任务开发了许多经典的机器学习方法。具体来说,许多基于光谱的方法利用了HSIC的丰富光谱特征,如主成分分析(PCA)[7]、支持向量机(SVM)[8]和随机森林(RF)[9]。由于HSIC[10]具有固有的非线性特性和光谱空间特性,在一些鉴别HSIC[11] -[14]的光谱空间方法中考虑了空间信息。然而,机器学习方法的浅层模式限制了特征提取能力和对不同HSI场景的适用性。近年来,许多层次深度学习模型被其卓越的特征提取能力所吸引,应用于具有挑战性的HSIC任务,并取得了很好的分类结果,包括堆叠自编码器(stacked autoencoders, SAEs)[15]、循环神经网络(recurrent neural networks, rnn)[16]、图卷积网络(graph convolutional networks, GCNs)[17]、[18]和transformer[19]。
卷积神经网络具有局部感知和参数共享的特点,在HSIC任务中表现出了良好的性能,受到了广泛的关注。例如,在[20]中提出了一种多尺度密集连接卷积网络(MS-DenseNet)框架,以充分利用HSIC的多尺度信息。为了充分挖掘光谱空间特征,在基于3D cnn的模型[21]中采用了3D卷积(Conv)运算。Zhong et al.[22]提出了一种使用3D残差块进行光谱空间表示学习的有监督光谱空间ResNet (SSRN)。在[23]中提出了一种基于注意的自适应频谱空间核改进残差网络(A2S2K-ResNet)模型,该模型利用改进的3D ResBlocks和高效特征重校准(EFR)注意机制[24]来提高分类性能。然而,三维卷积模式参数众多,计算成本高,难以平衡性能和效率。
除了三维卷积模式外,很多工作还尝试设计并行双分支网络[25]-[27],将光谱特征和空间特征分别学习并融合在一起。如Wang et al.[26]提出了一种自适应的光谱-空间多尺度网络(ASSMN),它由一个光谱子网和一个空间子网组成,从光谱和空间两个方面提取多尺度的上下文信息。Zhang et al.[27]提出了一个具有光谱自注意模块和空间自注意模块的光谱-空间双分支的光谱-空间自注意网络(SSSAN)。值得一提的是,上述双支网络[25]-[27]都采用了相似的自适应权值来融合分离的光谱和空间特征。然而,由于两个完全不同的模型位于不同的分支,这种光谱-空间双分支模式面临着较高的模型设计成本和棘手的光谱-空间特征融合问题。
另一方面,越来越多的研究关注到光谱空间斑块的空间邻域像素可能具有不同的识别能力的现象。在经典视觉任务中,注意力机制取得了很大的进展,它能够将注意力分配给输入信号中信息量最大的部分[29]-[32]。考虑到基于patch的模型存在的上述问题和注意机制的优势,许多研究都引入了注意机制来突出HSIC任务的重要空间信息。例如,Sun et al.[33]提出了一种基于3D Conv的频谱-空间注意网络(SSAN),该网络具有非局部自注意块[30],用于提取HSIC的联合频谱-空间特征。同样,Zhong et al.[19]提出了一种由光谱和空间互感器块组成的光谱-空间互感器网络(SSTN),用于提取光谱-空间特征。Zhu et al.[34]提出了一种具有光谱注意[31]和空间注意[32]的剩余光谱-空间注意网络(residual spectrum - spatial attention network, RSSAN)来细化光谱空间特征学习。除了直接转移现成的注意模块外,Hong et al.[35]提出了一个两分支的注意辅助CNN模型,该模型包含了一个原始的光谱注意模块和一个空间注意模块。
虽然上述方法的HSI分类性能很好,但问题是经典自然图像场景分割的patch处理模式与HSIs的HSIC不同。如图1 (a)所示,从自然图像实例中裁剪出的图像patch通常作为场景分割模型的输入,但图像patch中的每个像素都会被赋予一个唯一的语义标签。图像patch中像素之间是相等且互补的,尤其是相邻像素之间。相比之下,图1 (b)展示了HSIC流行的patch处理模式,一个patch代表它的中心像素,所有的邻近像素都起辅助作用。该补丁被用来为中心目标像素分配一个语义标签。因此,3D patch中中心像素的相邻像素为更好的分类提供了空间互补的信息,这与场景分割中的patch模式有很大的不同。如图1 ©所示,当一个patch包含土地覆盖类边缘时,空间窗口中的部分空间邻居信息会与整个patch即中心像元的语义标签不同,在分类过程中有不同的贡献。
首先,我们认为在分类过程中,利用中心像素作为标准基准来衡量其相邻像素的不同贡献是至关重要的。然而,现有的相关研究忽视了这一重要的认识,部分研究[19]、[23]、[33]、[34]直接将经典视觉任务中现成的注意模块[24]、[30]-[32]转移并嵌入到HSIC模型中,另一部分研究[35]、[36]没有充分考虑HSI的特殊性和HSIC的patch加工模式,而是按照面向自然图像的注意机制设计了原始的注意模块。幸运的是,Zhang等人[27]设计了一个基于中心向量与相邻向量在特征空间余弦相似度的空间自注意模块,来探索空间特征相关性。而SSSAN仅讨论了特征空间中的空间特征相关性。虽然Conv运算保持了空间平移等变[37],但事实是特征空间中的特征向量与原始输入空间中的谱向量完全不同,在光谱空间学习过程中可能会丢失部分光谱特征。综上所述,我们认为原始输入空间的中心谱向量与其相邻谱向量之间的关系与高级特征空间的中心特征向量与其相邻特征向量之间的关系同样重要。
为了缓解上述三个主要缺陷,我们提出了一种面向中心向量的自相似网络(CVSSN)。针对原始输入空间,利用欧氏距离相似度和余弦角相似度,设计了一种基于自适应加权的光谱向量自相似度模块(wa - svss),以改善空间信息的表示。同时,对于特征空间,我们提出了一种基于欧几里德距离的特征向量自相似模块(ED-FVSS)来增强空间特征的表示。此外,我们提出了一种用于模型输入的光谱-空间信息融合模块(SSIF),作为一种新的模式,融合中心一维光谱向量和相应的三维贴片,以便在方便的二维Conv模式下对后续的特征提取模块进行高效的光谱-空间特征学习。此外,为了保持模型的效率,我们实现了信道空间分离卷积模块(CSS-Conv)和尺度信息互补卷积模块(SIC-Conv)作为有效的频谱-空间特征学习的基本模块。为了使提出的模型更容易理解,图2展示了其主要框架,其中考虑了Indian Pines数据集。本文的主要贡献总结如下。
Fig. 2. Framework of the proposed CVSSN, which could be split into a spectral-spatial feature extraction part and a classification part. The former consists of an SSIF module for spectral-spatial information fusion, an AWA-SVSS module for spatial relationship mining in input space, a CSS-Conv module for efficient spectral-spatial feature learning, an ED-FVSS module for spatial relationship mining in feature space, and a SIC-Conv module for the mutual complementation of scale information. The latter part mainly contains a softmax-based fully connected classifier for HSIC.
1)为了探讨原始输入空间中中心谱向量与相邻谱向量之间的关系,我们提出了一种采用欧氏距离和余弦角相似度度量的AWA-SVSS模块,该模块可以直接挖掘空间信息而不损失光谱特征。
2)为了在高级特征空间中捕捉中心特征向量与相邻特征向量之间的关系,我们提出了ED-FVSS模块,该模块充分利用空间特征信息来增强光谱空间特征表示。
3)对于模型输入,我们设计了SSIF模块作为一种新的模式,将中心的一维光谱向量与对应的三维光谱空间贴片进行融合,对后续模块进行高效的二维基于卷积的光谱空间特征提取,有效避免了三维卷积模式的计算成本和光谱空间双支模式的模型设计复杂性。
4)为了平衡所提出的CVSSN的性能和效率,我们设计了CSS-Conv模块和SIC-Conv模块作为有效的频谱空间特征学习的基本模块。
本文的其余部分组织如下。第二节详细介绍了提出的CVSSN。实验设置、结果和相应的分析报告在第三节。最后在第四部分得出结论和未来的研究方向。
形式上,在原始HSI X∈Rh×w×b中,X由t = p + q像素,X = {x1,…, xp, xp+1,…, xt}, X=X{p}∪X{q}, t = h·w,其中X{p}表示第一个p标记像素的集合,X{q}表示其余q未标记像素的集合。X{p}中的每个像素xi,j∈Rb对应一个类语义标签yi,j = k属于相应的标签集Y{p} = {y1,…, yp},其中k = 1,…,k。其中h、w、b、K分别表示空间维高、空间维宽、光谱波段数、类数。I = 1,…, h和j = 1,…, w共同表示HSI X中一个像素的位置。HSI分类任务的目的是根据标记像素集X{p}和标记集Y{p}对HSI X的每个像素xi,j赋一个语义标签yi,j。为了充分利用HSI的联合光谱-空间信息,在大多数情况下,将原始的3D HSI X分割为一组小的相互重叠的3D patch P, P中的每个patch Pi,j∈Rs×s×b,覆盖大小为s×s的空间窗口,所有b个光谱波段都以像素xi,j为中心,Pi,j的标号依赖于xi,j的标号。
如图2所示,本文提出的CVSSN是一种基于端到端patch的HSIC模型。如上定义,输入X∈Rh×w×b表示原始3D HSI,标记的像素xi,j作为输入中心的一维光谱矢量,Pi,j表示相应的输入3D光谱空间patch。此外,输出ˆY∈Rh×w表示x的预测类标签映射。特别是,CVSSN可以分为光谱空间特征提取部分和分类部分。前一部分由五个不同的模块组成,依次为SSIF模块、wa - svss模块、CSS-Conv模块、ED-FVSS模块和SIC-Conv模块。后一部分主要包括一个基于stand软max的全连接分类器。下面,我们将详细描述CVSSN的各个模块。
为了避免三维卷积模式[21]-[23]、[33]、[38]的计算开销以及光谱-空间双支模式[25]-[27]的模型设计复杂度,对于CVSSN的输入,我们尝试了一种新的模式项——光谱-空间信息融合模块(SSIF),将中心一维光谱向量和对应的三维patch融合成一个新的光谱-空间patch,以便对二维Conv模式下的后续特征提取模块进行高效的光谱-空间学习。
Fig. 3. (a Mirror padding for a central 1D spectral vector instance. According to the set padded vector length, i.e.,9, the elements 2 and 9 from the central 1D spectral vector are selected to pad the central 1D spectral vector. Besides, the padding elements selection and the padding process are both symmetric about the symmetrical center element 7, i.e., the element of the last band of the central 1D spectral vector. (b) The adopted horizontal row-wise reshaping direction of the padded central 1D spectral vector and the corresponding instance for one of spectral channels maps of the reshaped 3D spectral patch.
如图2所示,SSIF首先将中心一维光谱向量xi,j∈Rb重塑为三维光谱patch,实现重塑后的三维光谱patch与原始输入的三维光谱空间patch Pi,j∈Rs×s×b的拼接。另外,利用镜像填充,利用中心一维光谱向量的部分连续元素对自身进行填充,保证重塑后的三维光谱patch的每个通道窗口都被元素填充。
如图3 (a)所示,镜像填充的核心是填充元素的选择和填充过程都是围绕对称的中心元素对称的,即中心1D谱向量的最后一个波段的元素。此外,集合填充向量长度不需要人工设置,它取决于不同HSI数据集的光谱波段和裁剪后的3D patch的空间窗口大小。由图3 (b)可知,中心1D谱矢量的整形方向为水平行[39],[40]。如图3所示,所采用的镜像填充和水平行形方向都有助于保持谱向量的原始连续性。需要注意的是,重塑后的三维光谱patch保持了与原始输入的三维patch相同的空间维度窗口大小。
SSIF模块的操作如下所示:
其中P ’ i,j∈Rs×s×b '表示融合的光谱-空间patch,即模块输出。b '为融合的光谱-空间patch P ’ i,j的光谱带数。MirrorPad、重塑和Concat表示图2中对应的操作。特别是,Concat沿着Pi,j的深度方向。
更重要的是,后续特征模块的2D Conv对融合的光谱-空间patch进行操作时,从原始的光谱通道中捕获空间特征,再从新增的通道中利用局部和非局部的光谱特征,然后进行积分进行光谱空间特征学习。因此,本文提出的SSIF模式是一种新的尝试,使本文提出的CVSSN能够使用高效的2D Conv模式提取光谱空间特征,而不同于3D卷积模式和光谱-空间双分支模式。
如前所述,现有研究[19]、[23]、[27]、[33]-[36]采用注意机制,未能探究原始输入空间和高级特征空间中中心谱向量与其相邻谱向量之间的关系。因此,如图4-5所示,在本文提出的CVSSN中,专门设计了一种基于自适应加权的光谱向量自相似模块(AWASVSS)和一种基于欧氏距离的特征向量自相似模块(ED-FVSS)。
Fig. 4. Structure of the proposed AWA-SVSS module, which employs Euclidean distance similarity measure and cosine angle similarity measure in an adaptive weight addition pattern to mine the central spectral vector oriented spatial relationship in original input space.
Fig. 5. Structure of the proposed ED-FVSS module, which employs Euclidean distance similarity measure to mine the central feature vector oriented spatial relationship in high-level feature space.
AWA-SVSS模块:如上所述,设计AWA-SVSS模块是为了探索不同相邻光谱像元在原始输入空间的空间互补信息贡献。如图4所示,模块输入为融合的光谱-空间patch P ’ i,j∈Rs×s×b ',从SSIF中融合为第一层变换。中心谱向量记为ˆx0 i,j∈Rb ',可以直接从P ’ i,j中裁剪出来。首先考虑两种有效的相似度测度,即欧氏距离相似度测度和余弦角相似度测度,计算相应的面向中心谱向量的自相似表示Eb i,j∈Rs×s和bCi,j∈Rs×s。
中间是一段推理我没放,有需要的自己看下原文
ED-FVSS模块:如前文所述,ED-FVSS模块用于挖掘特征空间中中心特征向量与其相邻特征向量之间的空间关系。如图5所示,ED-FVSS模块采用来自第l层变换的feature map Xl i,j∈Rs×s×c作为模块输入,其中c为feature空间的通道数。在ED-FVSS模块中,Q, K, V∈Rs×s×c首先由1×1 Conv层从Xl i,j生成。具体来说,从Q中裁剪中心特征向量ˆxl i,j∈Rc。
利用欧氏距离相似度度量ˆxl i,j与特征映射K的每个相邻特征向量之间的相似关系,得到面向中心特征向量的自相似表示Ee i,j∈Rs×s,
中间是一段推理我没放,有需要的自己看下原文
ED-FVSS模块与经典的自注意机制[30]、[41]大体相似,不同之处在于中心特征向量ˆxl i,j与其相邻特征向量的欧式距离相似测度。基于Conv运算保持空间平移等变[37]的特点,将融合的光谱-空间patch P ’ i,j中的中心光谱向量ˆx0 i,j提取为高光谱-空间特征,并在第l层变换特征图中保持相同的空间位置。因此,ˆxl i,j也是与特征空间中原始的ˆx0 i,j相关度最高的特征向量。由于ED-FVSS模块直接关注ˆxl i,j之间最有效的关系来增强频谱-空间特征的表征,因此ED-FVSS模块在基于patch的CNN模型中比经典的自注意机制更适合于HSIC任务的空间特征挖掘。ED-FVSS模块设计和性能的实验也将在第三- b -2节中讨论。
如图2所示,基于挖掘的输入空间和特征空间中面向中心向量的空间关系,我们专门设计了通道空间分离卷积模块(CSS-Conv)和尺度信息互补卷积模块(SIC-Conv)作为两个基本模块,利用1×1 Conv和3×3 Conv提取有区别的光谱空间特征,保持模型效率。
深度可分卷积[42]将标准Conv分割为逐点Conv和深度Conv,以降低计算成本和模型参数。许多工作[18],[43],[44]发展了HSIC任务的深度可分卷积。受CEGCN[18]的光谱-空间卷积的启发,我们设计良好的CSSConv模块由1×1 CSS-Conv和3×3 CSSConv组成,用于高效的光谱-空间特征学习,每个CSS-Conv由一个点态卷积组(PCG)和一个深度卷积组(DCG)组成。
在形式上,给定第l层变换后的feature map Xl i,j∈Rs×s×b '作为k×k CSS-Conv的输入,k×k CSS-Conv表示深度卷积组中带有k×k Conv层的CSS-Conv。在PCG中,Xl i,j首先通过批量归一化(BN)操作B[45]归一化,然后由1×1 Conv层与漏整流线性单元(LeakyReLU)激活函数LR[46]进行转换。在DCG中,Xl+1 i,j由k×k Conv层利用整流线性单元(ReLU)激活函数R[47]直接转换。为方便起见,CSS-Convk×k表示k×k CSSConv的转换,即:
如图2所示,我们设计了SIC-Conv,通过1×1卷积尺度分支和3×3卷积尺度分支进一步提取光谱空间特征。形式上,注意第l层变换后的feature map Xl i,j∈Rs×s×c作为SIC-Conv模块的输入。其中,1×1卷积尺度分支依次由1×1 Conv层、BN层和LeakyReLU函数组成,3×3卷积尺度分支由3×3 Conv层、BN层和ReLU函数组成。然后采用元素加法运算融合两个尺度分支的不同特征,实现尺度信息的互补;SIC-Conv模块的总变换可以表示为
如上所述,CVSSN的光谱空间特征提取部分依次由SSIF模块、AWASVSS模块、CSS-Conv模块、ED-FVSS模块、SIC-Conv模块组成。分类部分采用全局平均池化层,将提取的s×s× c光谱-空间特征图转换为1×1×c特征向量。然后对HSIC采用具有softmax函数的全连通层,其中softmax函数输出类概率向量ˆyi,j = [p1,…]∈RK。此外,利用经典的交叉熵损失对所提出的CVSSN进行训练和优化,其公式为
为了更好地证明提出的CVSSN的有效性和效率,我们在四个流行的HSI数据集上进行了广泛的实验,即印第安松(IP)1、肯尼迪航天中心(KSC)1、帕维亚大学(UP)1和休斯顿大学13 (UH)^2。
IP数据集是由机载可见/红外成像光谱仪(AVIRIS)[1]传感器于1992年6月在印第安纳州西北部的印第安松农业试验点上收集的,其中包含145×145像素,空间分辨率为每像素20米。去除20个吸水率和低信噪比(SNR)波段后,选取400 ~ 2500 nm波长范围内标记像素为10249的200个波段进行分析。ground truth被划分为16类,其中一些类的样本数量是高度不平衡的。
KSC数据集由美国肯尼迪航天中心的AVIRIS[1]仪器于1996年收集,包含512×614像素,空间分辨率为每像素18米,波长范围为400至2500 nm。去除吸水率和低信噪比波段后,使用176个波段进行分析。KSC数据集由13个山地类和湿地类组成,标记了5211个像素。
UP数据集是由反射光学光谱成像系统(ROSIS)[48]在2002年意大利北部帕维亚上空的一次飞行战役中捕获的。它由610×340像素组成,空间分辨率为1.3 m /像素,去除12个噪声波段后,覆盖范围为430 ~ 860 nm的103个光谱波段。UP数据集包含9个城市阶层的42776个标记像素。
休斯顿大学的数据集是由ITRES-CASI(紧凑型机载光谱成像仪)1500传感器于2012年6月在休斯顿大学校园及其邻近城市地区采集的。数据由349 ×1905个像素组成,144个光谱通道,范围为364 ~1046nm,空间分辨率为2.5 m /像素。此外,将地物基准细分为空间不相交的子集进行训练和测试,其中包含15个互斥的城市土地覆盖类,标记像素为15029。
此外,每个数据集的详细类信息统一报告在表1中。对于IP场景和KSC场景,随机选取每类总标记像素的10%、1%和89%左右的标记像素作为训练、验证和测试集,而对于UP场景,随机选取5%、0.5%和94.5%左右的标记像素。对于UH数据集,在固定数据集划分的基础上,随机选取测试集中每类3个样本作为验证集。
为了从各个方面定量比较不同方法和模块的分类性能,接下来的实验采用了4个常用的评价指标,即总体精度(OA)、平均精度(AA)、kappa系数(K)和每类精度(AEC)。其中,OA是正确分类的样本数与测试集中样本总数的比值。AA是所有土地覆被分类精度的平均值。Kappa综合衡量分类结果与ground truth的一致性。AEC是每个类别的准确性,这对不平衡数据特别有用。此外,为了定量的效率分析,我们用训练时间(Ttrain)和测试时间(Ttest)来共同评估每个方法的运行时间。分别采用模型参数(Params)和浮点运算(FLOPs)来度量每种方法的模型复杂度和计算代价。
所有的实验都是在使用Intel Core CPU i9-10900K、64 GB RAM和单个Nvidia GeForce RTX 3090 GPU、24 GB GPU内存的工作站上进行的。软件环境是Ubuntu 18.04.5 LTS 64位操作系统,我们提出的CVSSN是由Python-3.8.5和pytorch-1.8.1框架实现的。对于CVSSN训练,使用Adam[49]优化器,批量大小、学习速率和训练epoch的数量分别设置为32、0.001和100。此外,整个过程重复十次,记录平均精度和标准差。此外,对所有数据集进行了频带去均值和方差标准化预处理。按照HSIC任务的标准patch处理模式,在对每个HSI像素裁剪3D patch之前,采用补零操作对HSI的每个边缘像素进行补零(s−1)/2个零像素。为了清楚地比较,黑体字突出显示最好的结果,同时在下列合适的表格结果中强调第二项结果。
1)空间窗口大小:对于基于patch的HSIC模型,3D patch的空间窗口大小影响patch包含的空间邻居信息的多少,空间窗口大小越大,特征提取时挖掘的混合像素越复杂,影响模型性能。因此,我们进行相应的实验,从一组空间窗口大小(3×3 ~ 17×17,间隔2像素大小)中确定三个主要数据集最合适的空间窗口大小,通过OA和AA评估的分类结果如图6 (a)所示。分类精度总体趋势是随着空间窗口大小的增加先上升后下降,在IP场景中表现得尤为明显。当空间大小大于9×9时,精度曲线呈现缓慢增长甚至下降的趋势。考虑到AA结果对于类不平衡IP数据集尤为重要,且空间窗口越大,计算开销越大。因此,为了在IP数据集上更有竞争力的AA结果,以及在接下来的所有实验中所考虑的所有数据集上所提出的模型的计算代价都更可接受,我们将空间窗口大小设置为9×9。
2)相似性度量:在提出的SVSS和FVSS模块中,我们通过度量中心向量与相邻向量在输入空间和高级特征空间中的相似性来挖掘面向中心向量的空间关系。本文设置相应的实验,讨论了基于欧几里德距离相似度、余弦角相似度和基于自适应权重相加的自相似度的组合,分别称为“ED”、“Cos”和“E-C”。图6 (b)-(d)展示了在IP、KSC和UP数据集上,采用SVSS和FVSS模块中不同相似度度量组合的CVSSN分类结果。例如,“ED+ED”表示SVSS和FVSS模块都使用欧几里德距离相似度度量。
很容易发现,在不同相似度组合的IP和KSC场景下,UP数据集的性能相对稳定,反之亦然,这是因为UP包含了更丰富的类别样本,而IP和KSC是较小的数据集,即使IP数据集也是类不平衡的。因此,对于IP和KSC数据集,在小类中比在主要类中更难实现有希望的分类精度。值得注意的是,’ ED ‘和’ E-C ‘的组合,即’ ED+E-C ‘和’ E-C+ED ‘,在整个三个数据集上,尤其是在IP数据集上,产生了优越的性能。最后,我们选择’ E-C+ED '组合来制定AWASVSS和ED- fvss模块,考虑到其在所有三个数据集上,特别是在IP场景上的最具竞争力的性能。
3)特征提取模块设计:在本文提出的CVSSN中,我们主要通过CSS-Conv和SIC-Conv模块进行高效的频谱-空间特征学习。根据我们的实验观察,CSS-Conv的PCG和SIC-Conv的1×1卷积尺度分支都是基于1×1 Conv进行跨谱通道和特征通道的Conv运算,总体上比3×3 Conv产生的负特征值略多一些。此外,考虑到LeakyReLU具有较小的斜率,以便为负值保留较小的非零梯度以避免ReLU死亡问题,在CSS-Conv和sicc -Conv模块中,我们进一步探索1×1 Conv和3×3 Conv的不同LeakyReLU和ReLU组合,在表II中,“LR+R”意味着1×1 Conv和LeakyReLU的组合,以及两个模块中3×3 Conv和ReLU的组合。很明显,“LR+R”比任何其他组合都有显著的性能提升,特别是对于AAs。因此,我们最终将CSS-Conv和SIC-Conv模块中的1×1 Conv和LeakyReLU以及3×3 Conv和ReLU结合起来。
4)建议的CVSSN结构:表三记录了每个数据集的SSIF模块中重要的光谱通道值,由不同数据集的原始光谱通道和输入的3D patch Pi,j的空间窗口大小决定。特别地,ˆb是第二节a和图3中讨论的集合填充向量长度。表四总结了CVSSN的详细结构。
为了更好地评价所提模型的性能和效率,我们将所提的CVSSN与两种经典的机器学习方法,即RBF核的RF[9]和SVM[8],以及目前最具代表性的7种深度学习模型,即ContextNet[38]3、RSSAN[34]4、SSTN[19]5、SSAN[33]、SSSAN[27]、SSAtt[35]6和a2s2b - resnet[23]7进行了比较。其中,根据相应的论文和源代码,使用PyTorch框架复制了SSSAN和SSSAN。选取的比较方法全面涵盖了经典机器学习方式、基于2D cnn模式、基于3D cnn模式、光谱空间双支模式、双子网络结构、残差学习方式和各种注意机制等流行的方式和模式。为了进行公平的比较,所有的方法都采用上面提到的相同的实验设置。
为了更好地评价所提模型的性能和效率,我们将所提的CVSSN与两种经典的机器学习方法,即RBF核的RF[9]和SVM[8],以及目前最具代表性的7种深度学习模型,即ContextNet[38]3、RSSAN[34]4、SSTN[19]5、SSAN[33]、SSSAN[27]、SSAtt[35]6和a2s2b - resnet[23]7进行了比较。其中,根据相应的论文和源代码,使用PyTorch框架复制了SSSAN和SSSAN。选取的比较方法全面涵盖了经典机器学习方式、基于2D cnn模式、基于3D cnn模式、光谱空间双支模式、双子网络结构、残差学习方式和各种注意机制等流行的方式和模式。为了进行公平的比较,所有的方法都采用上面提到的相同的实验设置。
1)定量准确度分析:表V-VII分别报告IP、KSC和UP数据集的平均分类结果及其对应的10个运行结果,用于详细的定量准确度分析。总之,在这三个数据集上,与其他数据集相比,CVSSN获得了最出色的性能。具体来说,我们提出的CVSSN模型在IP数据集上的OA、AA和K的性能优于第二优方法A2S2K-ResNet,分别为0.36%、1.15%和0.41%,在UP数据集上的性能分别为0.06%、0.03%和0.07%。更重要的是,与KSC数据集上的A2S2K-ResNet模型相比,我们的模型在OA、AA和K上的性能分别提高了1.79%、2.77%和1.99%。
Fig. 7. Classification maps for the IP data set. (a) Three-band false-color composite image. (b) Ground-truth map. © RF. (d) SVM. (e) ContextNet. (f) RSSAN. (g) SSTN. (h) SSAN. (i) SSSAN. (j) SSAtt. (k) A2S2K-ResNet. (l) CVSSN
Fig. 8. Classification maps for the KSC data set. (a) Three-band false-color composite image. (b) Ground-truth map. © RF. (d) SVM. (e) ContextNet. (f) RSSAN. (g) SSTN. (h) SSAN. (i) SSSAN. (j) SSAtt. (k) A2S2K-ResNet. (l) CVSSN.
和K,显示了所提出的CVSSN在KSC场景下获得的显著性能。对于三个数据集上的每一类精度,IP数据集上共16个类中9个类的分类精度最好,KSC数据集上共13个类中12个类的分类精度最好,UP数据集上共9个类中6个类的分类精度最好。
在经典方法中,RF和SVM仅利用光谱信息,在三个场景中都表现出有限的性能。在深度学习方法方面,与传统的提取和提炼光谱空间特征的两种方法相比,ContextNet、RSSAN和SSAN实现了类似的增强。然后,SSTN、SSSAN和SSAtt分别通过对变压器的全局空间相关性挖掘、精心设计的空间和光谱注意密集块、原始的两支光谱-空间注意结构进一步改进分类结果。此外,只有A2S2K-ResNet达到了接近我们模型的分类结果。但如上所述,建议的CVSSN在所有三个数据集上的性能改进仍然优于A2S2K-ResNet。此外,A2S2K-ResNet所消耗的训练时间比我们的模型要多得多。因此,分类比较结果隐含地表明在输入空间和高级特征空间中挖掘面向中心向量的空间关系是有价值和重要意义的。
2)定性准确度分析:为了进行定性评价,图79将对应方法在IP、KSC、UP场景上生成的分类图可视化。此外,还展示了各数据集的三波段伪彩色合成图像和地面真值图,便于直观比较。一般来说,不同方法对不同数据集的可视化结果与表五至表七中记录的相应统计结果是一致的。
具体来说,对于困难的类不平衡IP数据集,由于没有进行空间特征提取,在RF和SVM的分类图上存在大量的椒盐噪声。在特征提取不足的情况下,ContextNet、RSSAN、SSAN以及SSTN、SSSAN、SSAtt、A2S2K-ResNet也得到了类似的充满噪声的映射,模型的可视化结果更加平滑、清晰。CVSSN产生的像元识别结果与对应的3个数据集的地真图和合成图像更加一致。CVSSN充分挖掘了面向中心向量的空间关系,使类边界上的边缘像素和混合像素得到了更好的分类。
3)效率分析:为了比较不同方法在模型效率方面的差异,表VIII记录了不同方法的运行时间、模型复杂度和计算成本。在运行时间方面,经典的方法RF和SVM在模型测试阶段通常比模型训练阶段需要更多的时间,而深度学习模型则表现出相反的耗时模式。值得注意的是,在所有考虑的深度学习模型中,所提出的CVSSN在模型训练过程中总是运行最快的。虽然所有深度模型的测试时间都是毫秒量级,但所提出的模型也优于所有三个HSI数据集。它在IP场景上排名第一,在KSC和UP数据集上排名第二,略弱于ContextNet。A2S2K-ResNet作为最接近我们模型分类性能的方法,总是需要最多的时间来训练模型,这至少是我们建议的CVSSN的25倍。此外,SSAN和SSSAN还伴随着更大的时间消耗,这是因为它们分别是基于总三维卷积和基于密集块的模型结构。
从表VIII中可以看出,由于有效的自注意模型结构,SSTN的参数和FLOPs总是最小的。相比之下,由于使用了3D Convbased特征提取模块,SSAN在这三个数据集上对参数内存的需求最大,模型复杂度的计算成本也最高。特别是A2S2K-ResNet,根据其FLOPs记录,其计算成本也是第二大的,这也与其巨大的训练时间消耗相一致。相比之下,本文提出的CVSSN在IP、KSC和UP数据集上的Params值为0.261M、0.247M和0.253M, FLOPs值为21.03M、20.00M和20.43M,模型复杂度和计算成本较低,仅落后于SSTN和RSSAN。
综上所述,与其他9种方法相比,我们提出的CVSSN在以下3个方面取得了显著的HSI分类性能:1)在3个数据集上,OA、AA和K的定量精度都最好;2)在全局类图和局部类边界上最真实的视觉分类图;3)模型效率高,运行时间长,模型复杂度高,计算成本低。一般来说,CVSSN的优势说明了挖掘面向中心向量的空间关系和执行高效的频谱-空间特征学习的意义和重要性。
为了评价AWA-SVSS和ED-FVSS模块的效果和优势,我们分别用CBAM[32]的空间注意模块(SAM)、DAN[41]的位置注意模块(PAM)、SSAtt[35]的空间注意模块(SAM)、SSAN[33]的非局部块(NLB)[30]、空间自注意模块(SSSAN[27])和空间群增强模块(SGEM[50])提出了空间自注意模块(SSAM)。如表九所示,与各种空间注意模块相比,wa - svss和ED-FVSS模块的性能都有明显的提高。CVSSN中嵌入的不同空间注意模块对相应模型的整体效率有不同程度的影响。特别是SSSAN和SGEM提出的SAN在基于余弦角相似度的空间特征相关性捕获和基于全局-局部统计特征的空间相似度探索方面也获得了相对有竞争力的结果。实际上,当用SSSAN的SSAN替换AWA-SVSS模块时,通过挖掘特征来探索原始输入空间的空间相似性是SSSAN的SSAN的一种尝试。
为了进一步探索和验证所提出的CVSSN模型的不同模块的贡献,在两个更困难的数据集上进行了消融实验,IP和KSC。具体来说,我们在没有特定模块的情况下进行CVSSN,从光谱-空间特征提取部分的五个模块中探究相应模块的作用。此外,还对组合“SVSS+FVSS+SSIF”和“CSS+SIC”进行了验证。
如表十一所示,单次缺失aa - svss模块、ED-FVSS模块和SSIF模块,分类性能就会出现不同程度的下降,尤其是AAs。考虑到AA是所有地表覆盖类别精度的均值,代表模型对每个类别的总体识别能力,我们可以推断AWASVSS模块、edf - fvss模块和SSIF模块的贡献主要集中在基于CSS-Conv和SIC-Conv模块的细粒度特征提取能力的增强。当考虑“SVSS+FVSS+SSIF”模块组合时,相应的结果表明,与完整的CVSSN模型相比,不同数据集上的数据显著减少,这进一步验证了三个模块的贡献。此外,CSS-Conv和SICConv模块在高效的光谱空间特征提取中发挥着不可替代的作用。当CVSSN没有CSS-Conv和SIC-Conv模块时,其他模块由于频谱空间特征学习不足,不能发挥其预期的功能,导致两个数据集都出现了崖式下降。
本小节采用空间不相交UH数据集进行综合性能比较。如表X所示,大多数讨论的方法的分类性能与上述讨论的数据集上的结果一致。具体来说,所考虑的两种经典机器学习方法对集中挖掘光谱特征具有鲁棒性。A2S2K-ResNet和提出的CVSSN比其他讨论的方法获得更好的性能,并且A2S2K-ResNet在三个指标上略优于CVSSN,特别是在AAs上。但是对于A2S2K-ResNet来说,时间消耗仍然是一个严重的问题。
为了进一步探讨上述10种方法的鲁棒性,我们还研究了在3个数据集上使用不同比例的标记样本进行模型训练的不同方法的分类性能。如图10所示,随着训练样本所占百分比的增加,每种方法的曲线总体趋势都是上升的。其中,在三个数据集上,在训练样本数量不同的情况下,RF和SVM仍然表现出有限的性能。ContextNet、RSSAN和SSAN的增长趋势和分类结果接近,均领先于两种经典方法。此外,SSTN、SSSAN和SSAtt的竞争性能与讨论的大部分方法相比基本相同。特别是,SSSAN在UP数据集上的所有训练样本比例下都表现出了出色的性能。虽然A2S2KResNet在大多数情况下都取得了很好的分类结果,但CVSSN总是排名第一,有明显的改进,特别是比KSC场景中讨论的任何其他方法都有明显的增强。
Fig. 10. OAs and AAs of different methods on IP, KSC, and UP data sets with varying amounts of training samples. (a) OAs on IP data set. (b) OAs on KSC data set. © OAs on UP data set. (d) AAs on IP data set. (e) AAs on KSC data set. (f) AAs on UP data set.
在HSIC任务中,大多数基于patch的cnn忽略了原始输入空间和高级特征空间中中心向量与其相邻向量之间的潜在关系。此外,如何进行有效的频谱-空间特征学习是一个困难而重要的课题。在本文中,提出了一种针对HSIC的CVSSN。其中,首先设计了面向中心向量的AWA-SVSS模块和ED-FVSS模块,分别在原始输入空间和高级特征空间中挖掘面向中心向量的自相似空间关系。此外,SSIF模块作为一种新的模式,将中心的一维光谱向量与相应的三维光谱空间patch进行融合,有效地学习后续模块的光谱空间特征。此外,CSS-Conv模块和SIC-Conv模块在识别光谱空间特征和保持模型效率方面发挥着重要作用。实验结果和分析表明,所提出的CVSSN模型具有良好的性能和效率。未来工作的一个重点将是寻求更可解释和有效的机制来挖掘HSIC的光谱空间信息。此外,我们将优化模型结构,并更多地关注谱域,以提高所提模型对不同类型HSI数据场景的鲁棒性。