免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处
BENCHMARKING CLASSIFICATION OF EARTH-OBSERVATION DATA:
FROM LEARNING EXPLICIT FEATURES TO CONVOLUTIONAL NETWORKS
摘要:
1、本文我们实现了多分辨地标观测数据(EO data)的语义标记任务
2、我们实现了专业分类器,支持向量光谱分类和高抽象特征输入到深度神经网络
3、我们发现: 1)结合多传感器特征是检索一些特殊类所必需的
2)在图像领域,CNN性能显著
3)从大的通用数据集转换和学习对建立EO data 分类器非常有用
引言:
1、城区中心使用EO data的研究面临以下困难:众多的差异巨大的(语义)类,因为图像获取的角度和正射校正导致
几何学上的一些隐藏和奇异。
2、语义标记演化为数据的分辨率和有标签的数据的可用性,高分辨图像很重要,可以提供更多信息。
3、图像描述演化为允许目标建模的(分类)的对于纹理的复杂特征
4、同时,有标签的数据集允许严格的验证算法用于多城区分类,CNN网络更多应用于训练大数据集。
5、面临的问题:哪种方法最合适? 是否有一个通用的分类器用于大量标签不同的数据? 语义类可能拥有差别巨大的结构,从大的,疏松的结构(植被区域) ,结构性的目标(车,街道家具),而且,随着高分辨(VHR)图像的出现 ,后者在变得越来越常见。
6、IEEE GRSS 数据融合竞赛数据包含了大量的语义类,我们比较当下的不同方法,建立了8类 ground-truth
(section2)
7、section 3--实现和比较了不同的方法,旨在基于像素和基于目标分类
标准(基准):
1、Dataset and ground truth The IEEE GRSS DFC Zeebrugge
dataset ([7], referenced in the following as: grss dfc 2015)
有7 正射修正的图(7张图),分别包含以下信息:
1)10000 * 10000 像素 的正射影像(5cm 分辨率,RGB图像)
2)最大为 5000 * 5000 像素的 数字表面模型(DSM) ,10cm 分辨率
3)激光雷达 3D 点云,XYZI模式,X:维度,Y:经度,Z:高度,I:强度
而且,我们建立了一个ground truth(图 1)定义了8个语义类,如表1所示
2、评价体系:使用交叉验证评价不同方法,图像{1,5,7}训练,图像{3,6}测试,确保所选数据集含有所有类,图2
基于像素的分类使用每张图像的融合矩阵。
tp:分正确的点 fp:分错误的点 fn : 漏掉的正确的点
Precision = tp / (tp+fp)
Recall = tp / (tp + fn)
F1 -score = 2 · Precision · Recall/(Precision + Recall)
讲的有点绕,可去查看我的另一篇博客(http://blog.csdn.net/chenyanqiao2010/article/details/50114799)
算法和标准(基准):
本章测试了 基于原数据的手工启发式学习算法和精心设计的图像描述子。
1、专业基线:
我们建立了有标签特性的标线,他们中的大多数为RGBd数据的单通道滤波器,如果 d<45.4m,属于“水”这一类,如果d>50.5m,则是“建筑物”这类,,如果max(R, G, B) − min(R, G, B) < 6 && d < 52m,属于“路”这一类。
假设所有观测陆地的激光雷达有近红外波,我们从激光雷达点云上推导出伪近红外图像,计算归一化植被指数:(N IR − R)/(N IR + R) ,并设置阈值为 0.6
2、基于原数据训练SVM:
考虑到了不同输入:RGB(图像像素),RGBD(RGB+DSM) ,RGBID(I:从激光雷达推到处的伪红外信号)使用RBF核SVM和网格搜索寻参,使用超像素将第计算量
3、基于复杂特征训练SVM
使用了两种高层次特征提取方法:
1)、在空间光谱域,块(16*16 or 32*32)提取,使用HOGs(梯度方向直方图,手工特征的一种,在CNN出现之前在计算机视觉竞赛之前是绝对霸主)索引 ,使用RBF核SVM,使用网格搜索寻参,使用标准滑窗方法和光滑的结果图运用在分类器上?
2)、使用多源信息:使用图像超像素,HSV(H-色度,S-饱和度,V-纯度)色彩直方图,DSM的平均梯度,使用线性SVM分类。
4、面向目标识别(没看懂)
我们使用了两种面向目标的方法
1)、(有区别训练模型混合)提升了有区别部分模型的性能(什么鬼?)。一个目标分类模型,基于均匀数据有区别模型训练混合:目标样本在视觉外观上聚类,在这些样本上得到HOGs,基于此训练线性SVM
2)、自组织图(SOM,什么鬼?):从图像上学习视觉色彩表用来分割测试集图像。语义标签与SOM输出结合,从SOM分类图上导出
5、CNN和SVM
CNN的中间层可以用作特征,使用三种网络训练ImageNet,VGG,overfeat,caffe,
1)、产生231*231 图像块,滑窗(步长 32),使用线性SVM分类,将图像块中间的 32*32 赋为图像块的 label
2)、加入DSM训练VGG,在RGB和深度网络的级联输出训练线性SVM,我们使用RGBD(DSM) 和 RGBD +(LiDAR)
6、结果和总结
图3:ground truth 和分类map
表2列举了各种方法的性能
2)、多分辨信息非常重要:最好的两种方法结合了图像和DSM。
3)、在图像领域,深度网络常用来构建通用的EO data 分类器,性能良好。
4)、怎么在EO data 的上下文语境中使用神经网络:直接使用之前使用日常数据集(如ImageNet)训练好的网络,或者重新训练。
5)、旧的方法在现在还是很有竞争力的:NIR 信息对植被识别效果好,比色法和深度对建筑物和水域效果好
6)、面向目标的方法如果这样设计就效果好:目标中没有太多像素的时候,应用良好
总结:
1、多源信息结合对一些城区类意义重大
2、CNN性能良好
3、转换和学习大数据集(如:ImageNet)对构建EO data 分类器帮助很大。