机器学习之:流形与降维概述

流形与降维:概述

  • 降维算法概述
    • 流形学习
    • 距离的定义
  • KNN图与流形降维
    • KNN图
    • SNE算法

降维算法概述

降维,顾名思义就是把数据或者特征的维度降低,一般分为线性降维和非线性降维。

线性降维有:PCA、LDA、MDS(Classical Multidimensional Scaling)
非线性降维有: ISOmap( Isometric Mapping), LLE(Locally Linear Embedding), LE(Laplacian Eigenmaps) 非线性降维算法中用到的,大多属于流行学习方法。

流形学习

关于流形学习(Manifold Learning)最形象的解释莫过于这幅图:
机器学习之:流形与降维概述_第1张图片

这幅图又被称为Swiss Roll,瑞士卷,是一种常见的卷状蛋糕,如何计算蛋糕卷起表面上两点距离,就是流行计算中要解决的一个问题。

距离的定义

在欧式几何中,我们将两点的距离定义为两点的直线距离,这个距离也是在欧式空间中A到B的最短距离。由于在瑞士卷上,从A点到B点实际上有无数中路径,那么该如何定义A和B之间的距离呢?与欧式空间中的距离定义类似,我们也可以将其简单地定义为“最短路径”。

那么这个最短距离又如何定义呢?现实生活中测量从北京到纽约的距离也是一个这样的问题。由于地球实际上是球形的,从北京的纽约的距离 不是空间中这两个地点的直线距离,而是通过GIS中称为测地距离(根据球面几何,球体上任意两点的距离就是同时经过这两点的球面大圆的弧长)的度量来计算。在瑞士卷的问题中,类似地,我们也需要找到“测地距离”。

总结一下,这里提到的几个概念:

  • 测地距离:流形上两个点之间的最短测地线的长度。
  • 测地线:流形上两个点之间最短的曲线。
  • 黎曼测度:黎曼流形上某一点的切空间上定义的内积的集合。
  • 黎曼测度的性质:黎曼流形上某一点的切空间上某一切向量的范数等于这个切向量对应的测地线的长度。

KNN图与流形降维

KNN图

KNN图(k-Nearest Neighbour Graph)是对空间中的n个节点,通过某种距离度量的方式找到距离他最近的k个邻居,然后分别将这k个点连接起来,形成k条有向边。当然在实际中为了便于处理,通常是构造成无向边。这样的处理方法类似于局部微分,认为流行上每个点的邻域符合欧式空间定义。就类似于处理从北京到纽约的距离这样的问题不能用欧式几何,应该用黎曼集合,但是对于日常生活中常用的距离概念都是用欧式距离来描述一样。从直观上来讲,一个流行好比是d维的空间,在一个m维的空间中被扭曲(m>d)之后的结果,d维流形的任意点都局部同胚于(正逆映射都是光滑的一一映射)欧式空间 R D R^D RD
KNN图就可以在计算流行上两点的距离时起到“估算”测地线的作用,用欧式距离得到一个近似,如下图所示,图中蓝色的曲线是沿着流行真实的测地线距离,红色的是在原始数据点上根据欧式距离构造KNN 图得到的近似测地线距离。
机器学习之:流形与降维概述_第2张图片

SNE算法

SNE(stochastic neighbor embedding)算法的基本假设和上述KNN图算法基本上是一致的,在高维空间相似的数据点,映射到低维空间距离也是相似的。但是与KNN图算法不同的是,SNE把这种距离关系转换为一种条件概率来表示相似性。
假设高维空间中的数据点服从高斯分布,那么任意两点之间的距离,例如 X j X_j Xj点相距 X i X_i Xi点的距离认为是:
p j ∣ i = e x p ( − ∣ ∣ X i − X j ∣ ∣ 2 / ( 2 δ i 2 ) ∑ k ≠ i e x p ( − ∣ ∣ X i − X k ∣ ∣ 2 / ( 2 δ i 2 ) p_{j|i}= \frac{exp(-||X_i-X_j||^2/(2\delta_i^2)}{\sum_{k \ne i}{exp(-||X_i-X_k||^2/(2\delta_i ^2)}} pji=k̸=iexp(XiXk2/(2δi2)exp(XiXj2/(2δi2)
数据映射到低维空间后,高维数据点之间的相似性应该在低维空间保持一致。这里同样用条件概率的形式描述,假设高维数据点 x i x_i xi x j x_j xj在低维空间的映射点分别为 y i y_i yi y j y_j yj。类似的,低维空间中的条件概率用 q j ∣ i q_{j∣i} qji表示,并将所有高斯分布的方差均设定为 1 2 \frac{1}{\sqrt{2}} 2 1,所以有:
q j ∣ i = e x p ( − ∣ ∣ Y i − Y j ∣ ∣ 2 ∑ k ≠ i e x p ( − ∣ ∣ Y i − Y k ∣ ∣ 2 q_{j|i}= \frac{exp(-||Y_i-Y_j||^2}{\sum_{k \ne i}{exp(-||Y_i-Y_k||^2}} qji=k̸=iexp(YiYk2exp(YiYj2
如果降低维度后 Y i Y_i Yi Y j Y_j Yj真实反映了高维数据点 X i X_i Xi X j X_j Xj之间的关系,那么条件概率 p j ∣ i p_{j∣i} pji q j ∣ i q_{j∣i} qji应该完全相等。

你可能感兴趣的:(Machine,Learning)