摘 要:
流形学习一般是指一类无监督统计学习问题,其主要目标是发现嵌入在高维数据空间的低维光滑流形。本文着重介绍了流形学习的研究背景、研究动机以及一些有代表性的学习算法,并对进一步的研究作了展望。
关键词:流形学习;固有维数;Isomap;LLE;坐标图卡;特征映射
1 流形学习的研究背景
随着信息时代的到来,数据集增长和更新更快、数据维度更高、非结构化性更突出。技术的落后,造成了信息资源的巨大浪费。我们被信息淹没,却又缺乏知识。如何在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据,满足存储需求和人的感知需要是亟需解决的问题。
人能够在瞬间识别出一个对象在不同光照、姿态甚至扭曲后的表征,而计算机识别却十分困难。研究和模拟人的这种感知能力成为许多科学家的目标。神经生物学研究表明,光照或视角的不同引起刺激图像发生微小的变化时,视感知系统的响应具有某种特性的不变性。神经生理学和心理学理论认为连续变化的信号本身蕴含了这种不变性。神经生理学研究还发现整个神经细胞群的触发率可以由少量的变量组成的函数描述,如眼的角度和头的方向,这表明神经元的群体活动性是由其内在的低维结构所控制。近年来神经科学取得的研究成果,为智能科学的研究提供新的生物学依据。
二十世纪微分几何得到高速发展,对高维空间的微分几何和对曲线、曲面整体性质的研究,使微分几何学同黎曼几何、拓扑学、变分学、李群代数等有了密切的关系,这些数学和微分几何互相渗透,已成为现代数学的中心问题之一。微分几何发展的意义不仅在于本身,其在多个学科之间都有着广泛的应用,比如,爱因斯坦在研究广义相对论时,认识到由于引力的作用,空间可能弯曲,黎曼几何则为描述这种弯曲的空间提供了理想的工具。微分几何学的高速发展和广泛应用为我们研究新的机器学习算法提供了坚实的理论基础。
流形学习理论就是在这样背景下产生的,它以微分几何学作为理论基础,结合神经科学提供的生物学依据,研究机器学习所面临的新问题。
2 流形学习的研究动机
2.1 高维数据的稀疏性及维数灾
在高维数据中进行各种处理需要样本的数量会成指数增加,样本间距离的价值也越来越小,即面临维数灾问题。所幸的是,对于实际中很多问题来说,大部分高维观测数据变量可以用少量几个影响因素来表示,这说明其中包含着大量冗余信息,各成分之间通常也有着较强的相关性,这种现象几何学上表现为数据分布在低维流形上,或者是在低维流形附近。而要有效揭示其潜在的结构,需要学习和发现嵌入在高维空间中的低维特性。
2.2 从子空间到子流形
对于较小规模的问题,可以认为数据分布是近似于平坦的,PCA 和MDS 等线性算法能够得到最优子空间,已经被证明是非常有效的方法。然而这些方法假设数据结构是线性的,是建立在全局线性结构基础之上。对于大规模的数据集,数据结构呈现为非线性,数据分布明显地弯曲,而曲率较大时,则不能再近似认为样本取自子空间,而是子流形。这种情况下,所有发现线性子空间的方法都不能正确描述数据的结构,发现子流形方法的研究势在必行。
2.3 几何和拓扑的研究方法
随着微分几何的发展,几何和拓扑的研究方法在相关学科的应用愈加广泛。陈省身先生指出:
将来数学研究的对象,必须是流形。传统的实数或复数空间只是局部的情形(虽然在许多情形下它会是最重要的情形)。要弥补早期智能科学发展中强调局部忽略整体的缺陷,需要研究如何刻画数据集在几何意义下的整体特性,而流形方法为我们研究数据的整体几何特性提供了数学基础。
2.4 生物激励
我们把外界的感知可以看作是高维空间上的点集,而外在世界中的这些感知输入可能会有较强的相关性,可能会在一个低维流形上,或在低维流形的附近。2000 年,Seung 等[1]在Science 上发表文章提出感知可能以流形方式存在,视觉记忆也可能是以稳态的流形(或连续吸引子)存储。实验证明,连续吸引子的确存在与人脑中,因此如何模拟神经生理学的这种现象是我们需要研究的问题。而在理解人脑中感知如何从神经网络动力学产生,流形可能是至关重要的。
3 流形学习问题的数学描述
一个流形简单说就是一个拓扑空间,它在局部上是欧氏的。流形学习一般是指一类无监督统计学习问题,其主要目标是寻找嵌入在高维观测数据空间的低维光滑流形,研究内容主要包括保留或突出原始数据特定特征的有限数据集的降维;服从某种分布的高维有限样本点的密度估计问题;由少量潜在因素影响的高维观测数据的隐变量模型建立。
问题的数学描述:假设M 为嵌入在D维欧氏空间中的d 维参数化流形,d << D,f :M Rd → RD这里M 为Rd上的紧致连接开子集。
对于给定的高维观测数据集 1 2 N X = x x Λ x ,其中D ,服从某种潜在分布。
i x ∈ R px f ( y ) , i 1,2, N, i i i = +ε = Λ这里 { , , },其中, 1 2 N Y = y y Λ y di y ∈ R i ε表示独立噪声。
流形学习的目标是根据观测数据集 X 重构未知函数f 和,对于任意的,可以用估计。
流形学习问题是一种病态的逆问题。如果要发现隐变量Y 和观测变量X 的联系,就必须对f加上一些限制条件。如ISOMAP[2,3]中把f 限制为黎曼几何意义上的等距映射,最近有文献提出把限制为保形映射。
4 流形学习研究路线及进展
虽然流形学习是一个基础性的研究方向,但是由于其有着广阔的应用前景,近年来流形学习日益成为一个热点问题。流形学习可以分为基于局部的方法和基于全局的方法,有时还分为谱方法和非谱方法。本文对流形学习介绍是按照其数学基础以及对经典方法的扩展和推广的路线进行,下面就对目前的主要研究路线及技术成果进行简单介绍。
4.1 SOM到GTM、PPS
神经网络由于其自身的优势最早应用于学习一个复杂的非线性映射,如在多层感知器(MLP)的输入和输出节点之间定义了一个连续映射关系,理论上认为其可以学习任何一个复杂流形,但是隐藏层节点数目难以确定,收敛速度较慢,训练比较困难。
受人的感知以拓扑有序的方式映射到人脑皮层的不同区域所启发,Kohonen[6]建立一种神经计算模型,称为自组织映射(SOM)。模型抓住人脑中计算映射的本质特征而且保留计算的易行性,可以将任意维数的输入信号模式转变为一维或二维的输出,并且以拓扑有序的方式自适应实现这个变换,输出神经元的空间位置对应于从输入空间抽取的数据特征。SOM特征映射自组织形成过程分为三个部分,首先计算每个输入模式各自判别函数的值,具有最大值的成为竞争胜利者;获胜神经元根据邻域函数选择合作神经元,为相邻神经元的合作提供基础;最后适当调解突触权值以增加该模式判别函数值,即突触的自适应过程。SOM算法一旦收敛,得到的特征映射能够表现输入空间中重要的统计特性,突触权值向量集合表示的特征映射提供了输入空间的一个好的近似,而且通过SOM得到的特征映射是拓扑有序的,这表示网格这神经元的空间位置对应于输入模式特定区域或特征。另外对于非线性分布的输入,SOM也能够得到一组最好的逼进,可以说自组织特征映射提供了主曲线的离散逼进。但是还没有关于SOM收敛性的一般性证明,有时不能得到正确的映射,这时需要重新学习。另外SOM还没有一个费用函数随着学习的过程逐步减少,对于学习速率和邻域参数的选择也缺少理论支持。
Bishop[7]认为SOM的这些缺陷主要是因为其没有定义概率密度,提出一种非线性隐变量模型——生成拓扑映射(Generative Topographic Mapping,GTM)。GTM是SOM在概率意义上的扩展,由带约束的混合高斯模型组成,模型的参数可以由EM算法得到。模型目标是要发现分布在密度函数上样本集到其隐空间的映射)(ypy)(),(xWWxfφ=,这里为隐空间中的点,W为前向神经网络中的权值和偏差,为包含有L个基函数的向量,表示从隐空间到嵌入在高维空间流形上的一个映射。假设GTM的M个隐结点以概率一致离散地分布在隐空间,则对于数据空间中任意的,可以由高斯分布表示,中心为,协方差矩阵为,这样对于输出数据得到一个带约束的混和高斯分布xLQRRx→:)(φ),(Wxf)(xpx)|(Wyp),(WxfI1βyΣ=MxypMyp)|(1)(。由贝叶斯公式很容易计算条件概率分布,使用EM算法的E步就可以得到后验概率和逼进前向映射,,然后在M步最大化混和似然估计,就可以得到参数W和)|(yxp)(yg}|{)(yYXEyg==β,似然值则用来监测收敛情况。GTM的表达比较简单,可调参数少,能够保证EM算法的收敛性,并且给出了一个统一的映射函数。
Chang[8]使用改进的生成拓扑映射GTM模型,逼进主曲面,提出一种概率主曲面(PPS)算法。算法修改了GTM中的协方差矩阵,使得网络能够逼进自相合的主曲面。PPS继承了GTM所有优点,另外它的收敛速度比GTM更快,且对于相似的流形光滑水平下给出一个较低的最小平方误差估计。但是算法要求使用EM算法逼进一个非线性似然目标函数,所以算法有时不能保证收敛。I1β
4.2 PCA到KPCA、主曲线(面)
最早处理高维数据的方法是采用线性方法进行降维,线性组合容易计算,且能够进行解析分析。主成分分析(PCA)在全局最小重构误差的意义下把高维观察数据投影到低维主子空间上,而数据点协方差矩阵最大几个特征值所对应的特征向量生成的子空间正好满足这个条件。PCA是一种理论完善且算法上可行有效的线性降维方法,但是其有效性建立在假设数据嵌入在全局线性或近似线性的低维子流形上.
Kernel PCA[9,10]是PCA的非线性推广,主要思想是把输入数据经由一个非线性映射映射到特征空间,然后在特征空间执行线性PCA。Kernel PCA对于特征空间中特征值和向量在特征空间上投影的计算都不要求映射有显示的形式,而只需要计算映射的点积,实际中点积可以使用核函数x)(xΦFF)(xΦ))()((),(jijiijxxxxkKΦΦ==计算。Kernel PCA的非线性是通过核变换把输入空间变换到Hilbert特征空间来实现的,所以可以说PCA是在输入空间上的计算,Kernel PCA是在特征空间进行的,其本质上还是线性的分析方法。
Hastie and Stuetzle[11]提出的主曲线是第一主成分的非线性推广,并在统计学上定义为满足自相合特性的曲线。若随机向量),,,(21pXXXXΛ=具有连续概率密度函数,并具有有限的二阶矩,)(xpX)(λf为pR上以λ为参数的曲线,这里λ为实轴上的区间,投影指标)(xfλ定义为)(λf上和最近的点所对应的xλ的值:{})(inf)(:sup)(μλλλμλfxfxxf,如果曲线对任意的λ,有)())(|(λλλfXXEf==,则称)(λf为主曲线或自相合的曲线。
Hastie证明了主曲线上的投影指标为随机变量,并发现主曲线有类似主成分的特点。但是根据HS主曲线定义,主曲线)(λf不能和自己相交。在已知X的概率密度分布的条件下,Hastie给出构建主曲线的算法:
Tharpey and Flury[12]从统计学角度探讨并推广了自相合随机变量的定义。Tibshirani[13]考察了主曲线中存在模型偏差和估计偏差,分两阶段建模。Kégl[14] 定义一条有长度约束的主曲线概念。Delicado[15]给出了基于主定向点的主曲线(PCOP)定义。Duchamp and Stuetzle[16,17]和José L. Martínez-Morales[18]考察了平面主曲线的整体微分几何特性,并对主曲线的第一变分和第二变分以及自相合和曲率的关系作出分析,指出在曲率不为零的情况下,在平面上的主曲线是到数据期望平方距离的鞍点,且不存在局部最小,这不仅会导致模型拟合失败,而且不能利用交叉验证方法来选择模型复杂度。王珏教授、张军平博士[19,20]对主曲线、主流形进行了深入研究,并应用于交通流模型当中。
4.3 MDS到ISOMAP和LLE
SOM、PCA、主曲线(面)等都是把高维空间的数据点映射到一个低维流形空间中,而在一些应用中可能没有可以利用的数据点,只有这些数据点的某种相异度(或相似度)。多维尺度分析(MDS)[21]就是根据数据间的相异度(可以为距离),寻找数据在低维空间中的近似,并尽可能地保留每对观测之间的相似性关系。ixijdMDS保留的是直线距离,所以只能发现线性结构,Tenenbaum等提出的ISOMAP算法[2,3]的主要思想是首先计算流形上的测地线距离,然后应用MDS算法,发现嵌入在高维空间的低维流形,这样ISOMAP就通过数据间的测地线距离,保留了数据固有的非线性几何结构。标准ISOMAP算法共有三步:
Step 1:构建输入空间X中流形M上所有数据点的邻接图,距离定义为Euclidean距离,邻接关系定义为DiiRXNix∈=,,,2,1,Λ),(jidxε球或K最近邻。
Step 2:通过计算图G上两点间的最短路径估计流形),(jidGM上测地线距离,得到的矩阵为图G上任意两点间的最短路径距离。),(jidM)},({jidDGG=Step 3:应用MDS算法,构建维Euclidean空间Y上的嵌入。dDonoho[5]等用人工合成(实验者可以事先知道其潜在的参数,比如平移、旋转等)的数据用Isomap算法进行测试实验,实验结果表明Isomap能够准确地发现图像流形潜在的参数空间,并在自然图像(人脸)图像中不同姿态和亮度等潜在的未知参数得到较好的结果。
LLE[4]根据几何性质,把输入数据映射到统一的一个全局低维坐标系统,并保留邻接特性。具体的算法步骤如下:
Step1:使用k近邻方法为每一个数据点分配近邻。DiiRXNix∈=2,1,ΛStep2:计算根据近邻线性重构的权值,使得ixixijW2)(minΣΣ=ijjijixWxWε。
Step3:通过求稀疏对称矩阵Σ=kkjkijiijijijWWWWMδ的最小特征值,最小化2)(ΣΣ?=ΦijjijiyWyY,计算由最优重构的低维嵌入向量。 ijWiy通过利用线性重构的局部对称性质,LLE能够学习非线性流形的全局结构,比如从人脸和文本图像中学习到有意义的特性,以及人脸姿态和文本语义关联。另外LLE算法还具有旋转、尺度和平移不变性,和一般局部降维方法不同的是,LLE最优化过程也不包含局部极小,算法中的可变参数较少。张长水教授[22]在LLE的基础上提出一个从低维嵌入空间向高维空间的映射方法,并在多姿态人脸图像的重构实验中得到验证。
和自组织映射、主曲面一样,MDS、Isomap、LLE同样将高维数据投影到较低维的流形上,但并没有给出流形的参数。在自组织映射和主曲面中,原始特征空间中紧凑的点被映射到紧凑的流形上,特征空间中远距的点也可能映射到一起,而在MDS和Isomap则试图保留所有的成对距离。Isomap和LLE算法预处理都是先定义一个点的近邻点,然后计算流形的局部几何测度,和经典MDS不同的是,它们能够发现潜在的复杂自然观测的非线性自由度,比如手写体和不同检视条件下的人脸图像。这两种算法潜在的意义还在于它们的发表极大地推动了流形学习算法的研究。
4.4图论方法
图论思想在解决聚类问题中得到较早的应用,首先在数据点和无向图G的节点之间定义一一对应,然后根据k近邻方法(或ε邻域)方法定义图中的边,这样就在数据点和无向图之间建立的关系,同时建立一个稀疏邻接矩阵,我们把基于此的算法称为图论方法,最近邻法也可以看成是寻找最小生成树的过程,有时把LLE和Isomap也看作是基于图的算法。
Belkin and Niyogi[22,23]提出的Laplacian特征映射得到的数据嵌入图来自定义在整个流形上的一个自然图,能够表示流形固有的几何结构,可以看作是一个半监督学习算法。其思想主要是使用流形上定义的Laplace-Beltrami算子的一个逼进。具体算法步骤如下:
Step 1:使用k近邻或ε邻域的方法构建邻接图。
Step 2:选择权值使用热核(Heat Kernel)方法,如果i和j连接,令权值}/exp{2txxWjiij??=。有时使用简单方法,如果i和连接,令权值。之所以权值矩阵选择热核,是因为根据热传导偏微分方程的解,可建立流形j1=ijWM上可微函数的Laplacian Beltrami算子与热流的一种紧密联系。
Step 3:特征映射。假设图G为连接图(否则对每一个连接部分),计算下式的特征值和特征向量:ξλξDL=。这里D为对角权值矩阵,Σ=jjiiiWD,WDL?=为Laplacian矩阵。Laplacian矩阵为对称的半正定矩阵,可以看作是定义在图顶点上函数的Laplacian算子。令G110,,,?kξξξΛ为特征向量,分别对应于从小到大排列特征值。除去特征值0对应的特征向量, 在低维空间ixmR的像可以由随后的个(m))(, ( ), 1 i i m ξ Λ ξ 给出。
若,算法是为了找到一个映射保持数据点的平均意义上的局部性,即DRMf→:∫?=MfxfMl21)(minarg)(2。这里积分关于Riemannian流形上的标准测度。而此目标函数等价于图上的最小化问题:Σ?=jiijjiWfffL,2)(21)(。这里L表示Laplacian Beltrami算子。而,其中div指向量场的散度,根据Stokes公式有)()(fdivfLdef=∫∫=MMffLxf)()(2。是半正定的,这样问题就转化为求的特征函数问题,而紧致流形上的频谱为离散的。令特征值按升序排列为LLLΛ≤≤2100λλλ,为对应于ifiλ的特征函数。显然是一个常数函数,把流形上所有的数据点映射为一个点。为避免这种情况,选择和正交的嵌入映射,所以为最优嵌入映射。if1fDonoho D and Grimes C认为Isomap要求参数空间的概率测度有凸支撑,进行全局等距映射这个条件过于严格,而局部等距更合理,从而提出一种Hessian特征映射算法[24]。Hessian特征映射和Laplacian特征映射的理论框架非常相似,只是使用Hessian算子代替了Laplacian算子。映射的Hessian算子使用局部坐标的方法定义为这里代表M上的概率测度。如果流形M和dmdR开的连接子集存在局部等距映射,则的)(fH1+d维零空间,包含常数函数和维函数空间,并证明了对于一个适当的基,都可以恢复其参数空间。Hessian特征映射要解N个k×k的特征值问题,这一点又同LLE算法非常相似,但是Hessian方法要求估计二阶导,而这对于高维数据样本来说是非常困难的。d)(fH4.5高斯混合模型的密度估计Isomap和LLE是两种通过局部线性低维“小块”刻画数据分布的无监督学习算法,而对于高斯混合模型,其协方差矩阵可以概括为少数的几个特征向量(既主方向)。混和因素分析模型使用EM算法估计期望和低阶协方差矩阵,是一个参数模型。流形Parzen窗算法[25]训练中没有使用迭代算法,且可以发现流形结构,是一个非参模型。对于落在高斯分布中心附近的那些样本,使用这些模型,可以得到其局部低维表示,但是却不能得到在高斯分布中心旁边样本的低维表示,这是因为高斯中心旁边样本协方差矩阵的特征向量不能排列,这个问题在建立流形的坐标图卡算法(Charting a Manifold)[26]中得到解决。
建立坐标图卡算法基本思想是使用局部坐标图卡覆盖流形。算法具体步骤如下:
Step 1:根据样本估计流形固有维数。
Step 2:把样本数据集分解,建立局部坐标图卡。使用软划分的方法把数据划分为局部线性低维近邻,最小化局部方差等价于最大化数据拟合高斯混和模型密度的最大似然估计:
这里每一个高斯部分定义一个以jμ为中心,以jΣ的特征向量为轴的局部近邻,而数据的总方差可由的特征值给出。如果数据流形在jΣjμ的邻近可以近似为局部线性,那么除了几个大的特征值外,其他的都接近于零,表示联合特征向量组成最优方差的局部坐标系统。而在某种程度上,最大似然估计正好表示这个属性,它要求高斯混和模型每一个组成成分都尽可能的拟合数据,并找到一个局部几乎平坦的流形上,建立局部坐标图卡。
Step 3:连接图卡为一个统一的坐标系统,然后计算样本和坐标空间的映射和逆映射。对任意非退化的高斯混和模型,把所有的图卡集缝合在一个一致的低维坐标系统上。对于每一个图卡,都有一个仿射坐标变换把投影到全局坐标空间。把所有的图卡合到一起,数据点在低维向量空间投影的加权平均为:
上式(32)问题决定仿射变换G。图卡的解可以应用于任何高斯密度估计的拟合模型,所以大的特征值问题可以可以通过连接覆盖数据的少量几个图卡来避免,通过31给出任何数据点到坐标空间的映射。
4.6 流形的固有维数估计维数估计
是模式识别中的一个经典问题,固有维数[28]估计问题经常和模型选择联系在一起,其主要目标是发现高维数据集中有意义的影响因素的个数。固有维数的估计方法一般分为局部方法和全局方法两类。
局部的方法又称拓扑方法,使用样本近邻信息估计,寻找数据点所在超平面的局部线性逼进,避免了把高维数据投影到低维空间。其中最近邻算法和拓扑表示网络(Topology Representing Network, TRN)[29]最具代表性。最近邻算法对给定数据集的每一模式选择其k近邻,构建生成向量的子空间,然后根据子空间和近邻之间的夹角估计固有维数。TRN是一类无监督神经网络,其主要思想是使用TRN得到最优拓扑保留图G,然后对于每一个Voronoi块计算特征值,而由TRN的每一个神经元学习到的相互关联的个数n决定了流形的固有维数,不足之处在于其中一些结论还没有得到理论证明,且不能应用于实际中的高维情况。
与局部方法不同,全局的估计方法则是利用整个数据集,经典方法有投影技术和多维尺度分析(MDS)方法。投影技术通过最小化投影误差把数据集投影到最优子空间,线性问题中PCA是最佳选择,而对于非线性问题则有多种非线性PCA和kernel PCA。但是非线性PCA有时并不能得到最优投影映射,kernel PCA[9]通过Mercer Kernel方法,把数据投影到特征空间,然后根据非零特征值的个数得到固有维数,然而核的选择严重影响了算法的性能。MDS方法是一种尽可能保留数据点之间距离的投影技术。算法定义了一个用来衡量投影度的准则,这个准则只依赖于数据点之间距离。然后计算这个准则在不同维数下的值,当这个值变化不大时的维数即为固有维数,缺点在于这个值有时并不存在。Isomap和LLE中即是利用基于局部的MDS算法估计固有维数。
分形方法[30]已经广泛应用于估计生成时间序列的动态系统的吸引子,近年来被用于估计固有维数。基于分形的技术也是一种全局方法,能够在数据相关的存在性未知的情况下发现数据集的固有维数。分形维数有多种定义,计盒维(Box-Counting Dimensions)[]和关联维(Correlation Dimensions)比较常见。集合Ω的计盒维定义为:如果BDr为盒子大小,为覆盖Ω的盒子个数,则)(rv)))= 。由于计算计盒维的算法复杂度随着维数成指数增长,所以只适用于低维数据集。而关联维计算上较为简单,常被用来估计动态系统中吸引子的维数。关联维定义为:令为NxxxQ,,,21Λ=NR中的数据集,势为,如果定义关联函数为:
这里I为指标函数,那么关联维定义为)ln())(ln(lim0rrCDmr→=,可以证明关联维是计盒维的下界。采用最小二乘法拟合log-log曲线,即坐标轴分别为和,关联维[30]即为曲线上直线部分的斜率。对计盒维估计方法[31,32]类似,只是替代了。由于这种方法对于样本较少时不能得到可靠的结果,也不能计算估计误差,Taken在Fisher最大似然方法的基础上提出一种能同时估计关联维及其标准差的方法。分形方法有两个重要的优点,一是可以大规模高维数据的固有维数,二是得到的固有维数值可能是非整数,这一点尤其重要,因为由于噪声影响,实际数据可能分布在类似分形的子流形上,这时其维数通常非整数。))(ln(rCm)ln(r))(ln(rv))(ln(rCm5 总结与展望研究流形学习的主要意义在于寻找数据集中蕴涵的整体几何和拓扑规律,而这种规律本质上不依赖于实际观测的维数。微分几何学、统计学以及计算算法的发展使得通过模拟数据集作为非线性流形上的样本提取其潜在的固有特性提供了可能,并可从局部交互作用中分析并发现流形全局结构。
流形学习是一个具有基础性、前瞻性的研究方向,其研究成果和技术已经立即应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域,特别是在基因表达分析中,用于检测和区分不同的疾病和疾病类型。
尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果,但是由于其数学理论基础较为深厚复杂,以及多个学科之间交叉融合,所以仍有许多亟需研究和解决的问题,尤其在下述几个方面:
一、目前已有很多流形学习算法,但很多算法只是建立在实验的基础之上,并没有充分理论基础支持,所以我们一方面要进一步探索能够有效学习到流形局部几何和拓扑结构的算法,提高流形投影算法的性能,另外更重要的是要不断完善理论基础。
二、各支几何都是研究空间在变换群下的不变性,微分几何亦是如此。而很多情况下我们正需要这种不变性,所以研究局部样本密度、噪声水平、流形的正则性、局部曲率、挠率结构的交互作用对流形学习的研究有积极促进作用。
三、统计学习理论得到充分发展并逐渐成熟,流形学习理论在其基础上发展自然可以把统计学中有用的技术应用于流形学习中,如流形上的取样和Monte Carlo估计、假设检验,以及流形上关于不变测度的概率分布密度问题,都值得进一步研究。
四、目前大部分学习算法都是基于局部的,而基于局部算法一个很大缺陷就在于受噪声影响较大,所以要研究减小局部方法对于噪声和离群值的影响,提高学习算法鲁棒性及泛化能力。
五、研究大规模流形学习问题的高效和可扩展的学习算