基于主动学习的高光谱图像分类方法研究

   最近在看主动学习的图像分割方法,其实就是选取样本点的问题,写在博客上以供日后参考,记录。原文来自一篇硕士文章<<基于主动学习的高光谱图像分类方法研究>>–王依萍,注明出处,现简做整理。   
   引言:考虑到传统基于SVM的主动学习算法在分类过程中只利用了图像单一的光谱信息而忽略了图像的空间信息,本文提出了几种主动学习和空间信息相结合的分类方法。具体研究内容如下:
   1. 提出了一种基于主动学习结果修正的高光谱图像分类方法。在该算法中,首先利用传统的 SVM 主动学习算法对高光谱图像进行分类,得到一个初始的分类结果,然后计算每个训练样本和它的邻域样本之间的光谱相似性,并与给定的阈值进行比较,最后利用比较的结果对初始分类结果进行修正,得到最终的分类结果。
  2. 提出了一种基于主动学习的两阶段高光谱图像分类方法。该方法把普通的高光谱图像分类过程分为两个阶段,第一阶段利用图像的空间信息先对训练样本的邻域样本进行分类,第二阶段结合第一阶段分类的结果利用传统主动学习算法对剩余样本继续分类,最后把两阶段的分类结果进行合并即为最终的分类结果。
  3. 提出了一种结合图像分割的主动学习高光谱图像分类方法。该方法首先利用一种分割方法对高光谱图像进行分割得到一幅分割图,然后利用基于主动学习的分类方法对高光谱图像进行分类得到一幅分类图,最后对这两幅分割图和分类图利用最大投票融合策略进行融合得到最终的分类结果。
   主动学习算法能够根据某种有效的采样策略主动地提出一些标记请求,然后将那些经过严格筛选的样本交给人工专家进行标记,从而不断地增大训练样本集的规模,那些经过筛选的样本就是那些信息量大且对分类器性能最有利的样本,然后将这些样本添加到训练样本集中去重新训练分类器。 

基于主动学习的高光谱图像分类方法研究_第1张图片

  常用的主动学习采样策略有如下几种
  (1)基于不确定性的采样策略
该算法认为最有价值的样本是那些分类器最难确定其类别属性的样本,这样的样本才是最值得标记的样本。对于样本的不确定性,常见的衡量方法有三种:第一种,从信息熵的角度来看,样本的不确定性与其信息熵成正比,即信息熵越大,样本的不确定性就越高,所以,按照此方法来说,最难以确定其类别的样本就是那些信息熵较大的样本;第二种,从几何角度来看,样本的不确定性与其到分类面的距离成反比,即样本到分类面的距离越小,样本的不确定性就越高,所以,按照此方法来说,最难以确定其类别的样本就是那些距离分类面较近的样本;第三种,从概率的角度来看,分类概率越靠近0.5 的样本,其不确定性就越高。
  (2)基于版本空间缩减的采样策略
基于版本空间缩减的采样策略的主要思想是:通过某种有效的算法选择出
些能够大幅度地缩减版本空间的样本,然后对它们进行标记。
  (3)基于误差缩减的采样策略
  该算法根据样本的实际分布情况,选择那些能够最大程度的减少将来的泛化误差的样本进行标记。
 

基于 SVM 的主动学习方法中常见的采样策略

    

   (1)边缘采样(Margin Sampling, MS)
从未标记样本集中选择那些最靠近 SVM 分类超平面的样本进行标记,其中,样本点 x 到 SVM 分类超平面的距离Xms
这里写图片描述
式中这里写图片描述表示在一对多的多类SVM分类问题中,样本x 到其类别属于ω的分类超平面的最小距离。
   (2)熵值装袋查询采样(Entropy Query-By-Bagging, EQB)
   EQB 算法是基于委员会查询(Query-By-Committee)算法的一种。
  EQB 算法的主要思想是:首先创建 k 个训练样本集,每个训练样本集用装袋的方法取原始训练样本集的一部分;用这 k 个训练样本集分别对分类器模型进行训练,并对测试样本集中的样本进行预测;这样,测试样本集中的每个样本xi 都有 k 个类别标签,根据这些标签计算出每个样本xi 被标记为类别 ω 的概率;用这个概率计算出未标记样本xi的类别不确定度熵值,然后选择那些熵值最大的样本进行标记,样本的熵值越大,表示样本的不确定度越大,即样本所含的信息量越大。 其具体形式如下:
基于主动学习的高光谱图像分类方法研究_第2张图片
   式中, H(xi)表示样本xi 的熵值,yi*表示样本xi的预测类别, (p(yi*=w/xi)表示样本xi 被 k 个分类器模型预测为类别 ω 的概率,Ni 为样本xi预测的类别数量,Ni小于类别总数。当 k 个模型对样本的预测类别一致时, 此时 EQB返回的熵值是 0,这就表示将此样本加入到训练样本集对分类效果不会有所提高;反之,若 EQB 返回的熵值越大,表示此样本对分类器的性能有很大的影响,应该将其标记并放入训练样本集中。

基于主动学习结果修正的高光谱图像分类

步骤 1 利用初始的已标记训练样本集 Xi设置初始 SVM 分类器;
步骤 2 根据主动学习中的采样策略,用 SVM 分类器从未标记样本集 Xu中挑选信息量最大的 q个样本并由专家进行标记;
步骤 3 用标记后的 q 个样本更新已标记样本集 Xi和未标记样本集 Xu;
步骤 4 用已标记样本集 Xi重新对 SVM 分类器进行训练,完成一次迭代;
步骤 5 根据停止准则判断是否退出迭代:如果达到最大迭代次数,则退出迭代,继续下一步驟,否则返回步骤 2,进行下一次迭代,并使迭代次数加一。最大迭代次数的设置,专家对标记工作量的接受程度来定
歩骤6利用(4)中训练好的SVM分类器巧宋标记样本集足进行测 试,得到初始测试结果
步骤7应用已标记样本中每个样本的邻域信息对歩驟(6)中的测试结果进行修正,得到最终分类结果
结果修正方法
基于主动学习的高光谱图像分类方法研究_第3张图片

基于主动学习的两阶段高光谱图像分类

基本原理:相同类别的地物具有空间分布较集中的特性,像元与它的邻域像元之间的光谱相似性很高,属于同一类地物的可能性很大,所以第一阶段先对训练样本与它的邻域样本进行类别(用光谱相似性判别)的划分;然后把第一阶段经过分类之后的样本加入训练样本集中重新对分类器进行训练,再从测试样本集中利用主动学习的采样策略选择 q个样本进行专家标记,标记后加入到训练样本集中,同时从训练样本集中把第一阶段加入的样本移除;最后对更新后的训练样本集重复上述环节直到满足设定的终止条件。
基于主动学习的高光谱图像分类方法研究_第4张图片

结合图像分割的主动学习高光谱图像分类

步骤 1对高光谱图像做 PCA 变换并提取第一主成分;
步骤 2用高光谱图像分割方法对所提的主成分进行分割,得到一幅分割图( K-means 聚类方法)
步骤 3用基于 SVM 主动学习算法对图像进行分类,得到一幅分类图。
步骤 4 对步骤 3 得到的分类图和步骤 2 得到的分割图利用最大投票融合策略进行融合,得到最后的分类结果。
基于主动学习的高光谱图像分类方法研究_第5张图片
   结合图像分割的主动学习高光谱图像分类方法流程
通过聚类分割可以把图像划分成很多区域,在这些区域中,同一个区域内的像元被分成同一类,不同区域的像元被分成不同类。在步骤 3 中,通过某种分类方法得到的分类映射图中,计算对应于步骤 2 得到的区域图中的某一区域中,这些数据点被分到各类的次数,把分到次数最多的类别作为这一区域的类别,得到最后的分类图,这就是最大投票融合策略。
基于主动学习的高光谱图像分类方法研究_第6张图片

你可能感兴趣的:(高光谱)