随机森林降维matlab,随机森林在高光谱遥感数据中降维与分类的应用

高光谱遥感图像技术(hyperspectral images)能够获取地物在几十甚至几百个波段的光谱信息.与多光谱数据相比,高光谱数据具有图谱合一、可识别更多地物等优势,它在环境监测、植被的精细分类、农作物的长势监测等方面有着非常好的应用前景.高光谱数据的波段数目较多,部分波段存在较强的相关性,在分类等应用时存在冗余信息,严重时会产生“维数灾难(Hughes)”现象[1],这不仅增加了处理数据的成本,且会影响地物分类的精度.Chang发现在不影响整体分类精度的前提下,最高可能有94%的光谱波段是没有必要的[2],因此需要对高光谱数据进行降维处理.遥感数据降维方法主要包括特征提取和特征选择,特征提取是指通过某种变换得到有用信息并将其提取的过程,如主成分分析[3],投影寻踪[4]等,该类方法能够迅速减少特征数目,但由于采用了数学变换对数据进行处理,会损失原始影像的光谱特性.而特征选择只是从原始特征集中选出最优的子集,能够保留影像的光谱信息,便于分析对分类有效的光谱范围.有多种特征选择的方法应用于高光谱数据[5-8],包括基于信息量的排序方法[9],如信息熵的选择[10];基于类间可分性的方法,如B(Bhattachryya)距离[11];基于决策树的方法,如随机森林等.随机森林[12](random forest,RF)是非常热门的一种分类、预测、特征选择以及异常点检测的算法,它具有很高的分类准确率,良好的抗噪、抗异常值的能力,不容易出现过拟合现象、能处理大量数据等优点,近年来已经被生物学[12]、医学[13]、金融[14]等领域广泛应用.目前随机森林算法应用于高光谱遥感影像的相关研究较少,本文将随机森林算法应用于高光谱数据降维和分类过程中.利用随机森林算法对OMIS高光谱遥感数据实现数据降维与分类.先采用基于随机森林的RF-RFE(random forest-recursive feature elimination,RFE)方法对高光谱数据进行波段选择,得到几种最优波段组合完成数据降维,将分类精度最高的波段组合分别使用随机森林分类器与SVM分类器进行分类,最后通过对分类结果的评价探讨随机森林对高光谱数据降维与分类的应用适用性.1研究区与数据说明本文选取北京市小汤山地区农业试验田的OMIS高光谱影像进行数据降维,数据获取时间为2014年4月11日,范围为1 200 m×1 440 m,地面分辨率为3m,采用可见光-近红外(455.7~1 000.4nm)共51个波段进行分类.研究区内主要地物包含不同品种的冬小麦、水体及阴影、裸地、建筑等15个地物类别,在降维与分类前对原始影像进行了辐射定标预处理工作.OMIS高光谱影像真彩色合成图,R=699.2nm,G=565.4nm,B=465.0nm.图1北京小汤山试验田影像2研究方法2.1技术流程本文的技术流程大致如下:首先对北京小汤山OMIS试验田高光谱影像图进行预处理,采用基于随机森林算法的RF-RFE方法对数据进行降维处理,随后对各个波段进行重要性分析,依据得到的重要性排序选取合适的波段组合,对这几个波段组合采用随机森林分类器分类后进行精度评价,进而讨论随机森林算法对OMIS高光谱数据的降维适用性;同时将分类准确度最高的波段组合采用SVM分类器进行分类,对比随机森林分类结果,评价目视效果、总体精度、不确定性,进而讨论随机森林对OMIS高光谱数据的分类适用性.图2随机森林降维与分类的应用技术流程2.2随机森林算法随机森林分类器是一种基于多棵决策树集成学习技术.它采用bootstrap采样从原始训练集中得

你可能感兴趣的:(随机森林降维matlab)