基于图嵌入的降维算法——边界Fisher分析(MFA)

0、前言

        降维是计算机视觉、模式识别、机器学习等领域常见的数据分析和处理方法。在人脸识别、数据可视化等领域,通常需要从高维数据中提取有效的低维特征,以方便数据分析和处理。

        降维算法主要包括线性降维算法和非线性降维算法。线性降维算法最典型的包括:主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)。PCA 是一种无监督的降维算法,其核心思想是找到一组正交基,将高维数据映射到低维空间,使降维后的数据方差最大,从而达到尽可能多的保留原始高维数据的信息。LDA 是一种监督的降维算法,其目标是寻找一组最优投影向量来最大化类间散度矩阵和类内散度矩阵之间的比值,使得同一类数据尽可能聚集在一起,不同类数据尽可能分开。

        但是这两种算法都旨在保留原始高维数据的全局欧氏结构,并不能挖掘到原始高维数据的局部流形特征。因此,众多基于流形学习的非线性降维算法被广泛研究。   

        典型的算法有:邻域保持嵌入( Neighborhood PreservingEmbedding , NPE )和局部保留 投影(Locality Preserving Projection,LPP),此类算法都通过线性嵌入来保留数据的局部流形特征,给出了高维数据到低维数据的映射关系,但仅通过保留原始高维数据的局部流形特征,并不能很好地表征原始高维数据的可分性。于是,基于图嵌入的降维算法——边界 Fisher 分析(Marginal Fisher Analysis,MFA)、局部敏感判别分析(Locality Sensitive Discriminant Analysis ,LSDA)、 判 别最大化边界投影(Discriminant Maximum Margin Projections,DMMP),相继被提出 。

 1、MFA理论   

          MFA通过边界Fisher准则寻找最佳投影方向 :目标函数如下

基于图嵌入的降维算法——边界Fisher分析(MFA)_第1张图片

其中:

 同类近邻连接权重矩阵:,根据该矩阵构造本征图

 异类近邻连接权重矩阵:,根据该矩阵构造惩罚图

 基于图嵌入的降维算法——边界Fisher分析(MFA)_第2张图片

图1  MFA边界点分析图 

        结合MFA目标函数和边界点示意图,可以看出MFA旨在找到一个投影,使得同类近邻样本更加紧凑(即目标函数分母更小)和异类近邻样本间距离即异类边界点更远(目标函数分子更大)。以最大化目标函数为目标得到投影矩阵A。

 2、理论优缺点分析

 2.1 优点

         如上述所说,在流形学习基础上,考虑边界的问题

2.2 可能存在的不足

          ①首先这是一种线性映射,不能增加原有数据集的信息(只可能减少原有数据集的信息)即不可能提升原有数据集的区分能力,线性降维只是实现用尽可能少的特征去逼近原始数据包含的所有信息(有用或者干扰信息)。

           ②MFA对于边界较为清晰或者是异类样本重合度不够高的数据空间应该是有效的,可以想象图1中两类样本点完全杂乱无章融合在一起,这时候样本的异类边界和同类边界也完全融合在一起(目标点与其同类样本和异类样本的连接权重接近),根据目标函数,很难找到一组映射使得分子大而分母小。这个时候取得的映射矩阵并不能达到我们想要的效果(当然这种情况下任何线性方法都不一定能做到)。

            ③MFA选择的异类边界点与同类边界点之间没有直接的关联(都是独立寻找,并建立权重矩阵),我们为了两类样本尽可能分开,理想情况肯定是异类边界点与同类边界点尽可能分离,即应该将这两种边界点建立一种联系。

2.3  改进方向:

         根据上述分析改进点如下:

         ①非线性化

         ②非线性基础上如何进一步改进样本间权重计算方法,避免权重接近情况

         ③异类边界和同类边界关联化,即本征图和惩罚图的构建不应该独立无关

         ④其他

3、MFA实现效果

       待下文分解

         

你可能感兴趣的:(特征提取和降维,算法,分类,聚类,数据分析)