Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks

Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks

无监督的缺点:
1、 在特征空间中选择最优维数是一个难点
2、 波段相关性常常被忽视,导致数据冗余
3、 当与其他波段结合时可能具有信息性的波段被删除
4、 由于噪声波段与其他波段的相关性较低,因此常被标记为信息波段

立足点:采用异常检测
由于“重要波段”占少数,可以认为是“异常的”。在原始HSI所有波段中只有波段的一个(非常)小的子集传达重要的信息(区分底层材料所必需的),并且这些波段可以被视为异常值(其他波段,在大多数,是不提供信息的)。

贡献:
1、 引入了一种新的HSI波段选择算法,该算法将基于注意力的cnn和异常检测结合起来,以发现HSI中最重要的波段。
2、 引入了新的基于注意力的CNN架构,用于提取注意力热图,该热图显示了哪些频谱对CNN在训练过程中至关重要,因此根据其重要性对频段进行加权。基于注意力的CNN是光谱深层网络-它们仅对光谱信息进行操作,同时对输入HSI中的像素进行分类。
3、 将我们的技术与HSI频段选择的最新技术进行比较。验证波段选择对各种有监督学习(包括传统的和DL的)的影响。了解在cnn中添加注意力模块对其分类能力和训练特征的影响。验证所获得结果的统计重要性。

Method:建议去看一看文中提到的文献[22]
这些网络只利用输入HSI中每个像素的光谱信息(像素被分离处理——不利用任何关于像素在HSI中的邻域的空间信息,因此深度网络就是光谱网络)。由于注意模块是不可知的拓扑结构,因此可以通过合并在空间HSI维度(网络将是空间光谱CNN)中运行的卷积层来潜在地扩展它们。
与[22]相比,训练过程中没有修改网络损失——rodriguez等人引入了额外的正则化损失,这使得多个注意力热图彼此不同。本文不打算把这些热图推向正交性(多个“相似”的热图可以更好地突出光谱中最重要的频率,因此更“自信地”从所有其他波段区分出信息最丰富的波段)。此外,为了使注意力模块直接适用于cnn网络,避免了使用标准损失函数进行推论。修正损失需要进行灵敏度分析,适当调整正则化项的权重,量化正则化项对损失函数的影响。
该模块由两个元素组成:一个是注意力估计器,提取特征图最重要的区域;另一个是置信门,生成预测的置信分数

注意力估计器:
注意力估计器有效地将深度为l的所有特征图(FMs)合并为一个单一的特征图(因此进行降维)。估计器建立注意力热图Zˆl-用于标准化Zl中的每个激活图,它表示级别l上所有激活图的集合(即,注意热图被用来突出显示每个激活图中每个条目的重要性 )。取平均以后产生Hl,然后利用线性分类器对输入样本的标签进行预测。

置信门:
局部特征通常不足以输出高质量的类别假设。因此,将每个注意力模块与网络的输出耦合,以通过带有门权重矩阵Wc(在第l级)的内积来预测置信度c,网络的最终输出是注意力估计器的softmaxed加权总和,分类器的输出乘以其置信度得分。

思路整理:

本文方法是一种嵌入式方法,将生成的注意力热图嵌入到CNN训练中。 这些热图量化了频谱中特定部分的重要性,随后使用异常检测算法对其进行处理。

本文的重点是在在卷积Zl(l为网络拓扑内深度,l≥1)的每次max- pooling激活后插入一个注意模块,然后生成注意热图。该模块由两个部分组成:一个是注意力估计器,提取特征图最重要的区域;另一个是置信门,生成预测的置信分数。至于两个的作用本文前面有说明。
Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks_第1张图片
估计器产生一个注意力热图Zˆl—它用于规范化Zl中的每个激活映射,这表示级别为l的所有激活图的集合(即,注意热图被用来突出显示每个激活图中每个条目的重要性)。最终产生给定其局部信息的输出空间的假设H1。对它们中的每一个执行该归一化处理-将它们平均化以生成假设H1。 线性分类器随后利用它来预测输入样本的标签。
Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks_第2张图片
置信门的作用:局部特征通常不足以输出高质量的类别假设。因此,将每个注意力模块与网络的输出耦合,以通过带有门权重矩阵Wc(在第l级)的内积来预测置信度c,网络的最终输出是注意力估计器的softmaxed加权总和,分类器的输出乘以其置信度得分。
Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks_第3张图片
作者给出的例子说明:假设每个示例特征图中的第五个条目是信息性的,应由注意机制选择。最终的关注热点图应返回输入HSI中每个频段的关注分数,因此将对CNN体系结构较深部分中提取的关注热点图进行插值处理(即,其维度增加了,如图所示)。大小对应于b)的热图。可以看到,注意点在每个热点图中第五个条目的较大(较深)邻域中逐渐减小(注意机制应用于特征图,而在结构的较深部分中,CNN内的感受野更大))。最后,我们对所有的热图进行平均,以生成最终的关注热图,并进行异常检测。

在这项工作中,利用椭圆包络(EE)算法从输入(完整)HSI基于最终关注热图提取最重要(鉴别)的波段。在EE中,数据被建模为具有特征尺寸之间协方差的高维高斯分布(此处是使用基于注意力的CNN提取的最终注意力热图的条目,因此,输入张量为 EE算法的大小为b×1),并确定一个覆盖大部分数据的椭圆。 这些位于椭圆外部的样本被分类为异常。EE使用快速算法(文献[90]中的算法)作为最小协方差确定子,其中将数据分为非重叠子样本,针对这些子样本计算出每个特征维(C)中的均值(μ)和协方差矩阵。 最后,为每个样本x提取马氏距离D。保留D值最小的样本。在EE中,分段污染率定义了分析数据集中有多少数据应该被选为异常(因此,不应该位于最终的椭圆内)

本文作者实验了含有2、3、4个BBS模块的实验,所谓的BBS就是包含一维(1D)卷积,然后是非线性,批处理归一化和1D最大池化层。在所有实验中,采用蒙特卡洛交叉验证。将每个HSI数据集随机划分30次为训练(T)集和验证(V)集,对大多数类进行了欠采样,并忽略了背景像素。

实验部分,作者首先对污染率进行了超参数选择,本质上来说差别并不是很大,实验在Salinas Valley数据集上有很明显的波峰,表明光谱中最有意义的部分用于区分所有类别的像素。尽管对于Pavia University数据集来说,很少有这样清晰地选择的频段,但频谱的某些部分肯定比其他部分更具特色(请参见图第二行中的频谱两端)。
Hyperspectral Band Selection Using Attention-Based Convolutional Neural Networks_第4张图片
接下来作者验证了注意力对CNN是否有积极或者消极的影响进行了对比实验。证明了注意模块不会对CNN的性能产生不利影响,注意力可以建立高质量的模型并立即选择最重要的频段。同时也证明了,当添加更多的BBs时,我们只能观察到性能的微小改善。这表明,较浅的模型仅使用两个卷积池块就可以提取高质量的特征。下一个实验证明添加注意模块既不会增加epoch的数量,也不会增加处理时间。

在本实验中,评估了使用完整和简化的HSI数据集训练的公认的最新模型的分类性能。这些分类器包括支持向量机(SVM),随机森林(RF)和决策树(DT)。结果表明,减少HSI数据集(较低的λ值,可以获得较高的降低率)有助于缩短网格搜索时间,而对于全数据集,网格搜索时间很容易变得很大。这样的超参数优化在我们的cnn中是不必要的。之后都是一些与最先进算法的对比实验,以及波段的可视化。

如有什么不正确的地方请指教,多多谅解!

你可能感兴趣的:(高光谱)