Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Net

基于CNN的高光谱图像深度特征提取与分类(2016)

(IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING)

大概看了一遍记录一下
一、Introduction
1、提取的特征:非线性、判别的、不变的
2、避免过拟合的方法:L2正则化、dropout
3、为了提高性能:虚拟样本增强
4、解决维度灾难问题:深度特征提取
5、HSI FE早期基于光谱方法:主成分分析(PCA)、独立成分分析(ICA)、线性判别分析,这些方法用线性变换提取特征,而高光谱数据本质上是非线性的
6、解决非线性问题方法:流型学习、基于核的数据表示算法
7、单层分类器:线性SVM、逻辑回归;双层分离器:决策树、核支持向量机
8、SAE(堆叠式自动编码器)和DBN(深层信念网络)不能有效提取空间信息,在训练阶段之前将空间信息表示为向量
9、解决训练样本问题,设计组合正则化策略,包括dropout和RELU
10、本篇论文的模型主要贡献:
(1)更好提取特征
(2)解决了有限训练样本带来的过拟合问题,组合正则化策略,包括L2正则化和dropout丢弃
(3)虚拟样本增强方法来创建训练样本
(4)不同深度的层次特征进行可视化分析
(5)用三种经典的数据集,从分类精度、复杂性、处理时间与传统方法比较
二、CNN和基于一维CNN的HSI光谱FE框架
神经网络和深度学习
1、深度学习通过无监督学习初始化,有监督方式微调;高级特征从低级特征中学习
2、深度学习模型:DBN SAE CNN
CNN
所谓卷积,就是对图像(不同数据的窗口数据)和滤波矩阵(可看做恒定的滤波器)做内积
1、灵感:感受野内细胞的反应具有很强的利用图像中局部空间相关性的能力。因此Filter也是局部感知机制
2、卷积层(线性乘积,求和)、ReLU层(激励层)、池化层(取区域平均最大)、全连接层
3、CNN有两个特殊的方面:局部连接和共享权重;
4、利用近层神经元之间的局部连通性利用局部相关性
5、一个完整的CNN阶段包含一个卷积层和一个池层。深度CNN是通过将多个卷积层和池层堆叠而成的深度体系结构。
6、通过降低特征映射的分辨率,池可以提供不变性
7、CNN的所有层都用的反向传播算法,滤波器:带着一组固定权重的神经元
HSI分类的光谱特征提取框架
1、误差反向传播算法
2、Mini-batch更新策略
3、损失函数
Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Net_第1张图片

m是batch的大小、Xi是第i个预测标签、Zi是mini batch标签
4、输入属于类别I的概率可估计如下
在这里插入图片描述

CNN的L2正则化
1、避免过拟合,L2正则化是一个带有极端参数值的惩罚模型,是偏差变小,缓和过拟合问题
2、训练数据good,测试数据poor导致过拟合
3、L2正则化想让参数的平方和变小,加上惩罚项得到最小化代价函数:
Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Net_第2张图片

λ是一个自由参数,需要根据经验进行调整;N是权重的数量
三、二维的CNN模型及其分类
在这里插入图片描述
在这里插入图片描述

Pi Qi表示卷积核的高度和宽度;w表示i-1层特征谱图到j层特征谱图,(p,q)位置的权重;
Dropoout处理过拟合:将一些隐藏神经元的输出设置为0,意味着向前传播和反向传播过程中退出的神经元不受影响。不同训练时期,深层神经元通过随机丢弃神经元形成不同的神经网络,可以防止复杂的共同适应。
四、三维的CNN模型及其分类
Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Net_第3张图片

在(x,y,z)处第j个特征图的神经元值,m是链接到当前第j层特征图在第(i-1)层的特征映射,Pi Qi是空间卷积核的高和宽,Ri是沿着光谱维的核大小
五、创建虚拟样本
不合适的权重导致损失函数局部最优,性能不佳;另外人工获取样本成本高耗时
基于辐射样本的虚拟样本(一个样本)(线性变换+随机噪声
1、通过将随机因子乘以训练样本,并添加随机噪声来模拟虚拟样本
2、β控制高斯噪声n的权重;αm表示光照轻度的扰动;xm是原来的三维训练样本
在这里插入图片描述

基于混合的虚拟样本(两个样本)(数据融合+随机噪声)
1、目标和传感器距离过长,导致混合
2、从两个样本中以一定比例生成一个虚拟样本
3、Xi xj是两个训练样本;β控制高斯噪音n的权重;
在这里插入图片描述

六、实验结果
数据集介绍
1、Indian Pines:145x145;220个波段去掉20个水吸收,剩余200个;16个地面覆盖类别
2、University of Pavia:610x340;高分辨率1.3m/pixel;115个波段在0.43-0.86μm;103个波段;9个土地覆盖类别
3、KSC:空间分辨率18m;剩余176波段;13个类别;
4、90%训练集10%测试集
5、
七、讨论 总结
1、光谱域中有打的感受野,空间域中有小的感受野
2、4x4 5x5的卷积核 2x2的池化核
三个方面比较几种模型的能力
总体精度(OA):是模型在所有测试集上预测正确的与总体数量之间的比值
平均精度(AA):是每一类预测正确的与每一类总体数量之间的比值,最终再取每一类的精度的平均值。
Kappa系数:用于一致性检验也可以用于衡量分类精度
3、非饱和非线性函数ReLU可以获得比饱和非线性函数(如Sigmoid函数)更好的性能

你可能感兴趣的:(深度学习,机器学习,人工智能)