流形学习(Manifold Learning), 降维, pca, ica, lda

流形学习是机器学习的一种,这种方法是对数据本身特征的一种挖掘,是信号处理领域最经典的方法之一。

流形学习的本质是用低维度数据分布去解释高纬度数据,也可以把它理解成寻找一个高维数据空间到低维数据空间的映射。举个栗子,空间中有一个三维圆锥物体,一个二维世界的人想去观测这个物体,用什么样的方法呢?如果圆锥位于它的正上方,二维人只能观测到一个圆形的投影,它也无法区分这个投影是属于一个圆锥还是一个圆球。此时,我们旋转一下这个物体,让三角形部分投影到观测面上,二维人可以揣测这个物体具有一个三角形的尖端和一个弧形的底部。所有我们在流形学习中用到的方法,比如PCA, ICA,或LDA类似于旋转这个圆锥的“上帝之手”,让圆锥的特征更多的投影到二维观测面上。

PCA通过计算数据的covariance matrix寻找具有最大方差的维度向量,如果L是特征向量,PCA使得样本红点到L的距离和(sum(d’))最小。


PCA 

有时候数据的分布不是高斯分布,在非高斯分布的情况下PCA得到的维度向量可能并不是最优解,这时候不能用方差作为衡量标准,可以使用维度间的正交假设,即ICA。如下图,数据呈十字而非高斯分布,PCA得到的显然并非主轴方向,而ICA则得到正交的主轴。


非高斯分布

PCA和ICA是非监督学习,而LAD是监督学习,它需要样本分类(label)的先验信息,LAD最大程度的保存样本的分类信息,寻找对数据分割最好的分类面。

在举个例子,load mnist的部分数据集


mnist

分别用三种方法处理:


ICA
LAD
PCA

PCA对数据分类起了一定作用,但类别的边缘并不清晰;LAD对类别起到最大分割的效果;ICA对类别的分割类似LAD,但是它不需要数据的标签作为先验信息。

你可能感兴趣的:(流形学习(Manifold Learning), 降维, pca, ica, lda)