paper分析:sparsity preserving projections with applications to face recognition + PR2010
本文的出发点是一种降维方法~
采用的人脸数据集为:Yale,AR, Extended YaleB
稀疏保持投影(SPP)(1)一种无监督的降维方法;
(2)通过L1规则化目标函数,达到保持数据的稀疏结构关系的目标;
(3)具有旋转、尺度等不变性;在无标签的情况下,依然包含自然的分辨信息;能自动选择近邻关系。
类似的降维方法还有:局部保持投影(local preserving projection, LPP)和近邻保持投影(Neighborhood preserving embedding, NPE).
降维方法可分为有监督的、无监督的和半监督~ 其中
有监督的降维方法有:线性判别式分析(Linear discriminant analysis, LDA); 边缘Fisher分析(Marginal fisher analysis,MFA);最大边缘准则(Maximum margin criterion, MMC)等。
无监督的降维方法有:主成分分析(Principal component analysis, PCA), 局部保持投影(Locality preserving projections, LPP)等。
半监督的降维方法有:半监督降维(Semi-supervised dimensionality reduction, SSDR), 半监督判别式分析(Semi-supervised discriminant analysis,SDA)等。
在无监督的降维方法中,PCA应用非常广泛,但是PCA很难发现数据结构的非线性。尽管核PCA可以处理非线性降维问题,但是不能分析数据的流行结构。而且,如何选择核函数和最佳核参数也是一个困难的,没有完全解决的一个问题。
对于非线性降维的另外一种技术便是流形学习,比如:Isomap, LLE, Laplacian Eigenmaps等,用来分析数据的非线性流形结构。但是一些传统的PCA过程不能继承。例如:1)如何评估不可见的测试样本投影,不想PCA那么自然,因此需要一些特殊的tricks来处理“out of sample”的问题。2)最近的研究显示,非线性技术在人工数据集上很有效,但是对于实际任务中,并不能超越传统的PCA技术。3)难于选择超参数。
一种有效的方法可以克服以上缺陷,是利用线性来近似非线性 降维。例如:LPP就是一种laplacian eigenmaps的线性版本;近邻保持植入(MPE)和局部线性Eignspace分析是两种线性的LLE变种; Isometric投影可看为一种线性的Isomap。但是依然存在近邻size的选择和超参数选择的问题。
基于最近稀疏表示的一些进展,此文提出一种降维方法:稀疏保持投影SPP。 它是在流形稀疏表示的框架下,构建数据集的紧邻权重矩阵。
SPP的几个特点:
1)SPP具有与LPP和其它线性降维方法的一些优点。例如它是线性的,所以out of sample的问题随之被解决。除此之外,类似于LPP,权重矩阵可以保持稀疏性。
2) SPP不需要解决模型参数问题。
3)由于这种稀疏表示过程,使其保持着数据的局部属性~
4)易于扩展到其他有监督的方法和半监督的方法中。
自我观点:其实这篇文章是在稀疏框架下,应用这种保持投影方法。。。 我粗俗的理解为:稀疏表示+保持投影。
但是这篇文章他写的出发点,非常好,introduction写的很顺,分析很到位,实验论证也很充分。
这些作者应该对这一整套的降维方法非常熟悉,才能有此paper~
此篇文章的构架为:首先分析PCA LPP NPE这三种广泛应用的线性降维方法。 随之介绍SPP, 并进行对比; 实验结果展示等。
一、PCA (主成分分析,Principal component analysis)
PCA 是寻找一种数据的低维表示,同时尽可能的保持数据的多变性。
二、LPP
三、 NPE
四、SPP
后面这些实在是因为公式太多,难于编辑,不一一把算法陈述在此了~