机器学习----第十章降维与度量学习 学习笔记

目录

      • k近邻(k-Nearest Neihbor , kNN)学习
      • 低维嵌入
      • 主成分分析(Principal Component Analysis , PCA)
      • 核化线性降维
      • 流形学习(manifold learning)
        • 等度量映射(Isometric Mapping , Isomap)
        • 局部线性嵌入(Locally Linear Embedding , LLE)
      • 度量学习(metric learning)

k近邻(k-Nearest Neihbor , kNN)学习

首先我们先来理解**“有监督学习”**:对具有概念标记(分类)的训练样本进行学习,以尽可能对样本集外的数据进行标记(分类)预测,相当于有明确的分类目标。

通俗的来说就是有监督学习就是训练样本的标记信息是已知的,我们完成一个分类任务时,我们是知道要分为哪些类的,只是对数据进行提取属性再直接分类就好。有监督学习有回归和分类。

  • k近邻(k-Nearest Neihbor , kNN)学习就是一种常用的监督学习方法。它的工作机制:给定测试样本,基于距离度量找出训练集中与测试样本最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。

回归任务中可以使用“平均法”:将这k个样本的实值输出标记的平均值作为预测结果;
分类任务中可以使用“投票法”:选择这k个样本中出现最多的类别标记作为预测结果。

k近邻学习与之前的学习方法不同的是,它是“懒惰学习”:
懒惰学习:在训练阶段仅仅是把样本保存起来,训练时间开销为零,等待收到测试样本后再进行学习;
急切学习:在训练阶段就对样本进行学习处理。

  • k取不同的值时,分类结果会有显著不同;采用不同的距离计算方式时,找出的近邻也可能有显著差别,从而导致分类结果有显著的不同。

低维嵌入

我们在之前的讨论都是基于一个假设:任意测试样本x的附近任意小的范围内总能找到一个训练样本,即训练样本的采样密度足够大,这称为“密采样”。

但是现实生活中的数据却很难满足这个假设,在高维情况下出现的样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,这称为“维数灾难”。

  • 我们可以通过降维(维数简约)来缓解维数灾难:通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。
    我们能够降维是因为:与学习任务密切相关的也许是高维数据的某个低维分布,即高维空间的一个低维“嵌入”。

多维缩放(Multiple Dimensional Scaling , MDS):原始空间样本之间的距离再低维空间中得以保持,这是一种经典的降维方法。

  • MDS算法过程:
    MDS输入为距离矩阵D(m*m),低维空间维数d’;输出为矩阵VΛ,每行是一个样本的低维坐标。
    1.通过公式计算出dist2i·,dist2·j,dist2·· (西瓜书P228);
    2.通过公式计算出矩阵B(西瓜书P228);
    3.对矩阵B做特征值分解;
    4.取Λ为d’个最大特征值所构成的对角矩阵,V为相应的特征向量矩阵。

对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高则认为降维起到了作用。若将维数降至二维或三维,则可通过可视化技术来直观地判断降维效果。

主成分分析(Principal Component Analysis , PCA)

主成分分析是最常用的一种降维方法,不同于MDS采用距离保持的方法,主成分分析(PCA)直接通过一个线性变换,将原始空间中的样本投影到新的低维空间中。

  • 简单来理解这一过程便是:PCA采用一组新的基来表示样本点,其中每一个基向量都是原来基向量的线性组合,通过使用尽可能少的新基向量来表出样本,从而达到降维的目的。

假设使用d’个新基向量来表示原来样本,实质上是将样本投影到一个由d’个基向量确定的一个超平面上(即舍弃了一些维度),要用一个超平面对空间中所有高维样本进行恰当的表达,最理想的情形是:若这些样本点都能在超平面上表出且这些表出在超平面上都能够很好地分散开来。

要求这个超平面大概具有如下两个性质:
最近重构性:样本点到超平面的距离足够近,即尽可能在超平面附近;
最大可分性:样本点在超平面上的投影尽可能地分散开来,即投影后的坐标具有区分性。

  • PCA算法过程:
    输入为样本集D={x1,x2,…,xm}以及低维空间维数d’;输出为投影矩阵W*=(w1,w2,…,wd’)。
    1.对所有样本进行中心化:找到样本集的中点,将样本集整体移动直到中点移到原点位置;
    2.计算样本的协方差矩阵XXT;
    3.对协方差矩阵XXT做特征值分解;
    4.取最大的d’个特征值所对应的特征向量w1,w2,…,wd’。

PCA 仅需保留W*与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。显然,低维空间与原始高维空间必有不同, 因为对应于最小的d-d’个特征值的特征向量被舍弃了,这是降维导致的结果. 但舍弃这部分信息往往是必要的:
1.一方面舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;
2.另一方面,当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到去噪的效果。

核化线性降维

线性降维方法假设从高维空间到低维空间的函数映射是线性的,不过,在现实任务中可能需要非线性映射才能找到恰当的低维嵌入。
这一节主要就是说非线性降维,以为保持本真(intrinsic)低维空间。非线性降维方法的一种常用方法,是基于核技巧对线性降维方法进行核化(kernelized)。

  • **核主成分分析(Kernelized PCA , KPCA)**中,有时候数据在低维度空间不是线性可分的,但是在高维度空间就可以变成线性可分的了。利用这个特点,KPCA的算法过程即为:
    1.只是将原始数据通过核函数(kernel)映射到高维度空间;
    2.再利用PCA算法进行降维,所以叫做K PCA降维,也就是先升维再降维。
    KPCA算法的关键在于这个核函数。

流形学习(manifold learning)

流形学习(manifold learning)是一类借鉴了拓扑流行概念的降维方法,在降维时,若低维流行嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去十分复杂,但在局部上仍具有欧式空间(对现实空间的规则抽象和推广)的性质。

我们先来理解流形流形(manifold)是一般几何对象的总称,包括各种维度的曲线与曲面等,和一般的降维分析一样,流形学习是把一组在高维空间中的数据在低维空间中重新表示。不同之处是,在流形学习中假设:所处理的数据采样与一个潜在的流形上,或者说对于这组数据存在一个潜在的流形。

  • 为什么要用流行学习降维:我所能观察到的数据其实是由一个低维流形映射到高维空间上的(一个立方体可以展开为平面)。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一的表示。

降维的举例:一个二维的圆,在整个二维空间中除了这个圆上的点之外的点,都是浪费的,用二维空间来表示这个圆是有冗余的;但如果用极坐标来表示这个圆,就只有半径这一个参数来确定圆。

通俗的说,流行学习可以概括为:在保持流形上点的某些几何性质特征(圆形、瑞士卷形)的情况下,找出一组对应的内蕴坐标,将流形尽量好的展开在低维平面上。
机器学习----第十章降维与度量学习 学习笔记_第1张图片

等度量映射(Isometric Mapping , Isomap)

等度量映射认为低维流形嵌入到高维后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离再低维嵌入流形上是不可达的。使用了微分几何中测地线的思想。

  • 举个例子帮助理解:当我们拿到一个地球仪,然后想要知道重庆到伦敦的距离,我们不能直接在地球仪内部用直尺来测量空间上的距离,而要想办法将地球仪展为平面(降维),再进行测量距离(测地线=>本真距离)。

如何计算测地线:利用流形在局部上与欧式空间同胚的性质,对每个点基于欧氏距离找出其近邻点,建立一个近邻连接图;这样,测地线距离就转变为计算近邻连接图上的两点之间的最短路径问题(Dijkstra算法、Floyd算法)。

  • 在这样得到任意两点的距离后,就可以将这些作为输入,使用之前介绍的MDS方法求得样本点在低维空间中的坐标了,这就是Isomap算法

上面的找出近邻点建立近邻图的构建方法有:1.指定近邻点个数k,找欧式距离最近的k个位近邻点从而建立k近邻图;2.指定近邻阈值ε,距离小于ε的点被认为是近邻点从而得到ε近邻图。

局部线性嵌入(Locally Linear Embedding , LLE)

与Isomap试图保持近邻样本之间的距离不同,局部线性嵌入试图保持邻域样本之间的线性关系。

  • 举例理解:当一个三维空间中的多面体要展开为二维平面时,我们希望它原本的相连边对应关系能够保持(长度、夹角)。

具体算法过程不作赘述,见西瓜书P237。

度量学习(metric learning)

度量学习的基本动机:我们进行降维是希望找到一个合适的低维空间已达到最好的学习性能,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间就是在寻找一个合适的距离度量

具体算法过程不作赘述,见西瓜书P238。

你可能感兴趣的:(机器学习,西瓜书,机器学习)