基于SAE特征融合的合成孔径雷达图像的目标识别

原论文:Synthetic Aperture Radar Target Recognition with Feature Fusion Based on a Stacked Autoencoder
Sensors 2017, 17(1), 192; doi:10.3390/s17010192
Article

国防科大,北京遥感信息研究所(网上查不到任何信息,可能保密单位)
特征提取是各种自动目标识别过程里非常关键的一步,尤其是合成孔径雷达图像的识别。为了得到明显的易于区分不同目标的特征,本文提出了一个基于SAE的特征融合算法,把特征经过SAE网络处理(融合)以后能提升识别性能!首先提取了23种基本特征(baseline features,这是图像的几何参数里提取的geometric parameters)和三片局部二值模式特征(TPLBP,three patch local binary pattern,翻译成三片局部二值模式很生硬哈,但想不到更好的了?,这是图像的纹理特征texture features),这些特征可以以更小的冗余度和更大的互补性(原图相邻像素之间冗余度非常大,描述的信息十分接近,一般原始语音原始图像都有很多冗余,比如奈奎斯特采样定理就说了,只要采样频率大于等于两倍信号最高频率,得到的离散序列和原始连续时间信号就完全等价,一点信息也没失去,语音和图像,文本的传输之前都会想办法去除冗余实现压缩以降低传输成本,即需要的传输带宽)描述图像的全局以及局部信息。然后设计了一个高效的特征融合SAE网络,基本特征和三片局部二值模式特征向量级联起来输入到SAE网络去。然后,用一个无监督的学习算法(逐层贪婪训练法)去预训练SAE网络,由于具有特征表示的能力,SAE网络融合以后的特征更加明显。最后,这个模型被一个softmax分类器精调(fine-tuned)再运用到目标分类中。十种基于MSTAR数据集的SAR目标得到了高达95.43%的分类精度,这就验证了提出的算法的有效性。
合成孔径雷达的发展使得合成孔径雷达图像(SAR图)爆炸式增长。手动识别大量的SAR图像耗时,不现实,因此ATR( automatic target recognition自动目标识别)算法在不断加速发展。对于传统的SAR ATR技术,选择什么特征就是最关键的一步,但是单一特征肯定不可能完整描述一个图像的信息,所以我们要用多种特征,把多种特征的识别结果融合起来得到一个最佳的识别效果,也就是分类精度。这个就要用到数据融合里面目标识别级(属性级,这是第三级)的特征融合
目前特征融合的算法主要有三大类,第一类是特征组合(feature combination),直接把不同特征级联起来(简单干脆,所有特征向量级联成一个更高维度的新特征向量),或者把所有特征向量根据不同的权重并行加权组合得到新特征向量(维数就不变了噻,这种并行组合必须保证每个特征向量维数相同,再加权线性组合得到一个列向量),或者第二类是特征选择(feature selection),利用各种偏好方法选择一个最优的特征组合,来得到新的分辨率更高的低维特征;第三类是特征转换(feature transformation),把原始特征转换为新的特征表示。
但是!!!
这三类算法,并不能有效消除原始图像的冗余,也不能从这些融合出来的新特征里探寻到更深的信息,他们的识别性能,精度,效率都无法让人满意。
所以!!!
基于DNN(深度神经网络 deep neural network)的特征融合横空出世应运而生了!最近,它在各个领域表现得都很不错,所以研究SAR图像的学者们也跑来凑一波热闹,把神经网络用到了SAR图像的目标识别里。但是DNN的卓越性能需要大量标记过的图像作为训练样本,这个在SAR图像识别里就是大难题了。而且,复杂的SAR图需要复杂的网络结构去拟合。(?),网络越复杂,训练时间就越长。所以,在只有很少的标记样本的情况下,为了提升SAR TAR技术的性能,就要么简化网络结构,要么想办法提升训练效率。
SAE,栈式自动编码器,是一种无监督学习网络,通过一个简单的非线性模型,把原始数据转换为更抽象的表示,通过最优化算法(optimization algorithm)来融合多个特征。基于SAE的特征融合就可以充分减少特征的冗余以及特征之间的互补信息。而且网络结构相当的简单,他以更少的标记训练样本,就可以高效适应快速识别和更大通用性(泛化能力 generalization capability)的需求。
大量学者做了这方面研究,比如Ni et al.[19]把SAR图压平成了一个列向量,经过预处理和分割后输入到SAE里,得到了很好的效果。为了拟合这么复杂的原始数据,SAE第一层需要6464个神经元(neurons),这就导致SAE网络结构极其复杂,训练效率也就极其低下;文献[20]里,SAE把灰度共生矩阵(GLCM,gray level co-occurence matrix)和gabor小波变换提取的纹理特征(texture feature)优化到更高阶。然而,纹理特征有巨大的冗余,通过融合增加的信息很少,因此效果不好;[21]里,作者用SAE组合了高光谱图像的空间特征(spatial features)和光学频谱信息(spectral information),这在分类任务里达到了更好的性能,但是原始的高维光谱信息导致了相当复杂的网络结构。另外,[22]通过采用多层的自动编码器提取了SAR图像的轮廓和阴影特征(contour and shadow features),整合到SNN(synergetic neural network协同神经网络)里去识别辨别目标,这也在一定程度上提升了分类精度。但是值得注意的是:这个算法需要分割目标的阴影区域*,然而不幸的是,这一个操作是相当复杂的。
这篇文章的主要目的是通过融合特征找到最明显的特征,通过简化SAE网络结构提升识别效率。
即使标记训练样本很少,无监督学习算法也能保证了SAE网络不会过拟合,无监督学习算法还能利用它的非线性映射能力对特征进行深度整合。
我们需要尽量低的特征维度(lower feature dimensions),这样网络能简单点,训练时间就短,效率就高,实时性好。SAE的输入越简单越好。
本文选择的23种baseline feature (88 dimensions)和TPLBP(128 dimensions)能从全局global和局部local视角perspective描述原图像,融合后的特征鲁棒性更强,分辨率更高。
常用的特征学习模型都是分为两个阶段:训练阶段training stage和测试阶段testing stage。本特征融合算法步骤为:

  1. 把SAR图像裁剪为相同的尺寸再提取特征
    把TPLBP值的直方图级联起来–>TPLBP特征
  2. 减去均值mean value(这就是归一化normalization,只是没有再除标准差,则不同特征仍然没有量化到同一个区间,大家都是在区间[-std,std]的正态分布,每个特征的std不同),然后用ZCA白化(Zero Component Analysis whitening*[26]详述*)预处理pre-processing特征(ZCA解决方差不同的问题)
  3. 把特征级联cascade起来输入到SAE网络,预训练SAE
  4. 用融合后的特征训练softmax classifier(sofmax分类器),根据标记训练样本微调(fine-tune)模型
    和深度学习方法的区别是:他们直接把原图输入到网络,数据维度就是128128(MSTAR数据集的图像标准尺寸,128128个pixels)我们输入的是提取和融合后的特征,维度:216(88+128)。
    16384---->216 所以!!我们网络第一层的神经元数目大大减少!
    ZCA白化在深度学习里是很常用的,目的是减少特征之间的冗余,而且使所有特征方差一样!
    用Kapur等人[28]提出的基于熵的自适应阈值法得到二值图(binary image),在形态学膨胀(morphological dilations)后,图像的不相连区域被删掉以提取二值图或者膨胀图的几何信息,得到了多维的基本特征。本文选了在特征排序(feature ranking,和fisher scoring有关)得到高分的23种几何特征,最后得到了88维的向量。
    基于SAE特征融合的合成孔径雷达图像的目标识别_第1张图片
    连通区域数目:二值图或者膨胀二值图的连通区域的数目。

面积:二值图或者膨胀二值图的值为1的像素数目。
质心:二值图或者膨胀二值图的质量中心。
边界框:包含二值图或者二值膨胀图的质量的最小的矩形。
主长度:和二值图或者膨胀二值图的质量有相同的规范化的二阶中心距的椭圆的主轴像素长度。
副长度:和二值图或者膨胀二值图的质量有相同的规范化的二阶中心距的椭圆的副轴像素长度。
偏心率:和二值图或者膨胀二值图的质量有相同的规范化的二阶中心距的椭圆的偏心率。就是焦点之间距离和主轴长度的比值,取值0-1。
方向:x轴和椭圆主轴的夹角,取值-90到+90度。
凸包:描述最小的能包含二值图质量的凸多边形的矩阵。每一行是凸多边形的一个顶点坐标,x坐标和y坐标。本文只用了凸包矩阵的第一行作为一个特征。
凸包数:凸多边形顶点数目。
凸面积:描述最小的能包含二值图或者二值膨胀图的质量(mass,译为质量不太准确)的凸多边形凸包的像素数目。
填充面积:填充图中值为1的像素数目,填充图是和边界框(bounding box)尺寸相同的二值图,所有空洞都补上了。
欧拉数:二值图质量中的物体数目减去这些物体中的洞的数目。
极值extrema:描述二值图质量中的极值点的矩阵。每一行也是包含一个极值点的横纵坐标。
等价直径:和二值图的质量面积相同的圆的直径。
坚固性solidity:又在凸包又在二值图中的像素占的比例。
extent:二值图中像素数目和边界盒中像素数目的比值。
周长perimeter:二值图质量边界border周围的每一对相邻像素的距离。
重心weightcentroid:基于位置location和亮度值intensity的二值图中心。这个量度也是基于SAR能量检测芯片chip的。
平均亮度intensity:能量检测图的像素平均值。
最小亮度:
最大亮度:
子数组索引:

雷达波的回波信号会随着目标的结构,表面粗糙度,物理特征的不同而不同,但是目标的纹理信息随着目标方位变动改变很小。所以纹理信息就被用来进行目标识别啦。局部二值模式LBP就是一个简单高效的局部纹理提取运算。
它高效的利用空间信息,用灰阶gray-scale和旋转不变性充分反映图片的局部空间相关性。
传统的LBP只能跟周围八个像素有关,基于这个限制,所以只能体现出局部!!的纹理信息,而且最原始的lbp是没有旋转不变性的,所以他不适合去描述方位敏感的雷达图里的目标。

你可能感兴趣的:(机器学习,SAR,images,SAR,ATR,DL/ML,SAE,softmax,分类器)