西瓜书学习笔记-10 降维与度量学习

chapter 10 降维与度量学习

10.1 k近邻学习

k近邻(k nearest neighbor,knn)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最接近的k个训练样本,然后基于这k个邻居的信息对该测试样本进行预测。
对于分类任务,还是采用“投票法”决定测试样本的标记。
在回归任务中,使用的是“平均法”,即将这k个邻居的平均值作为预测结果,还可根据距离的远近进行加权平均。
knn是“懒惰学习”的代表,没有显式的训练过程,此类学习技术在训练阶段仅仅把样本保存起来,待收到测试样本后再进行处理,相应的,那些在训练阶段就对样本进行学习处理的方法,称为“急切学习”。
k是重要的参数,k取值不同时,分类结果也会有显著差异。另一方面,采取不同的距离计算方式,找出的近邻也会有所区别,最终导致分类结果有显著不同。
最近邻分类器,即k=1时的knn分类器,其泛化错误率不超过贝叶斯最优分类器错误率的两倍:
西瓜书学习笔记-10 降维与度量学习_第1张图片

10.2 低维嵌入

事实上,在高维情形下出现的数据样本稀疏,距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为==“维数灾难”==。
缓解维数灾难的一个重要途径是降维(另一个途径是特征选择),即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易。在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许只是一个低维分布,即高维空间中的一个低维嵌入,如图所示,二维空间更易学习。
西瓜书学习笔记-10 降维与度量学习_第2张图片
若要求在原始空间中样本之间的距离在低维空间中得以保持,便要使用“多维缩放”的方法,这是一种经典的降维方法
假定m个样本在原始空间的距离矩阵为D,其第i行j列的元素为样本xi到xj的距离,我们的目标是获得样本在d’维空间的表示Z,且任意两个样本在d’维空间中的欧氏距离等于原始空间中的距离(在原始空间中样本之间的距离在低维空间中得以保持)。
令B=Z^TZ,其中B为降维后的样本内积矩阵,有:
在这里插入图片描述
令降维后的样本Z被中心化,显然,矩阵B的行与列之和均为零,即:在这里插入图片描述
易知:
西瓜书学习笔记-10 降维与度量学习_第3张图片
其中tr(·)表示矩阵的迹,即:
西瓜书学习笔记-10 降维与度量学习_第4张图片
由式10.3和式10.4-10.9可得:
在这里插入图片描述
由此,可通过降维前后距离保持不变的距离矩阵D求取内积矩阵B
对矩阵B做特征值分解:在这里插入图片描述
中间项A为特征值构成的对角矩阵,按特征值大小排序,V为特征向量矩阵,取A中的非零特征值,他们构成对角矩阵A
,令V表示相应的特征向量矩阵,则Z可以表达为:
在这里插入图片描述
在现实应用中为了有效降维,往往仅需降维后的距离与原始空间中的距离尽可能接近,而不必严格相等,算法描述如图10.3所示:
西瓜书学习笔记-10 降维与度量学习_第5张图片
一般来说,欲获得低维子空间,最简单的是对原始高维空间进行线性变换,给定d维空间中的样本X,变换后得到d’维空间中的样本
在这里插入图片描述
其中W是变换矩阵,Z是样本在新空间中的表达。
变换矩阵W可视为d’个d维基向量,zi=W^T
X是第i个样本与这d’个基向量分别做内积而得到的d’维属性向量,换言之,zi是原属性向量xi在新坐标系{w1,w2,…,wd’}中的坐标向量,若wi与wj正交,则新坐标系是一个正交坐标系,此时W为正交变换,显然,新空间中的属性是原空间中属性的线性组合。
基于线性变换来进行降维的方法称为线性降维方法,它们都符合式10.13的基本形式,不同之处是低维子空间的性质有不同的要求,相当于对W施加了不同的约束,如要求低维子空间对样本具有最大可分性,则将得到一种极为常用的线性降维方法。

对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高,则认为降维起了作用,若将维数降至二维或三维,则可通过可视化技术来直观地判断降维效果。

10.3 主成分分析

PCA是最常用的降维方法,先考虑这一问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
这样的超平面应有这些性质:
1、最近重构性:样本点到这个超平面的距离都足够近。
2、最大可分性:样本点在这个超平面上的投影能尽可能分开。
基于这两种性质,能分别得到主成分分析的两种等价推导:
1、最近重构性
先对样本进行中心化:在这里插入图片描述
再假定投影变换后得到的新坐标系为{w1,w2,…,wd},其中wi是标准正交基向量,
(=1是标准,=0是正交)。
若丢弃新坐标中的部分坐标,即将维度降低到d’在这里插入图片描述
是xi在低维坐标系下第j维的坐标,若基于zi来重构xi,则会得到xi=
通过低维的投影z来重构高维的样本x,此时的x是重构后的x
考虑整个训练集,原样本点xi与基于投影重构的样本点xi’之间的距离为:
西瓜书学习笔记-10 降维与度量学习_第6张图片
根据最近重构性(距离最小),10.14应被最小化,考虑到wj是标准正交基,有:
西瓜书学习笔记-10 降维与度量学习_第7张图片
这就是主成分分析的优化目标。

从最大可分性出发(最大可分性使得降维后的样本仍有较高的可分离性,便于进行训练),能得到主成分分析的另一种解释,样本点xi在新空间中超平面上的投影是W^T*xi,若所有样本点的投影能尽可能分开,则应该使投影后样本点的方差最大化,如图10.4所示。
投影后样本点的方差为:在这里插入图片描述
于是优化目标变为:
西瓜书学习笔记-10 降维与度量学习_第8张图片
西瓜书学习笔记-10 降维与度量学习_第9张图片
两种方法的优化目标等价。
对其中任一使用拉格朗日乘子法可得:
在这里插入图片描述
于是,只需对协方差矩阵XX^T进行特征值分解,将求得的特征值排序,再取前d’个特征值对应的特征向量构成W=(w1,w2,…,wd’),这就是主成分分析的解,PCA的算法如下:西瓜书学习笔记-10 降维与度量学习_第10张图片
降维后的低维空间的维数d’通常是由用户事先指定,或通过在d’值不同的低维空间中对k近邻分类器进行交叉验证来选取较好的d’值。
降维会将最小的d-d’个特征向量舍弃,但舍弃这部分信息是有必要的,一方面,舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;另一方面,当数据收到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将他们舍弃能在一定程度上起到去噪的作用。

10.4 核化线性降维

线性降维方法假设从高维到低维空间的函数映射是线性的,然而,在不少现实任务中,可能需要非线性映射才能找到恰当的低维嵌入,图10.6给出了一个例子,样本点从二维空间中的矩形区域采样后以S型曲面嵌入到三维空间,若直接使用线性降维方法对三维空间观察到的样本进行降维,则将丢失原本的低维结构,为了对“原本采样的”低维空间与降维后的低维空间加以区别,我们称前者为“本真”低维空间。
非线性降维的一种常用方法,是基于核技巧对线性降维方法进行“核化”,下面介绍核主成分分析(KPCA)。KPCA

西瓜书学习笔记-10 降维与度量学习_第11张图片

10.5 流形学习

流行学习是一类借鉴了拓扑流形概念的降维方法,“流形”是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算,这给降维方法带来了很大的启发:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去十分复杂,但在局部上仍具有欧式空间的性质,因此,可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局,当维数被降至二维或三维时,能对数据进行可视化展示,下面介绍两种著名的流形学习方法。

10.5.1 等度量映射

等度量映射的基本出发点,是认为低维流形嵌入到高维空间后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的,==低维流形嵌入上两点的距离是高维空间“测地线”的距离,测地线是两点之间的“本真距离”,显然直接在高维空间中计算直线距离是不恰当的。(下面不写了,想看直接看书,感觉用处不大)。

10.6 度量学习

机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好,事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是寻找一个合适的距离度量。而度量学习的基本动机就是直接尝试“学习”出一个合适的距离度量。
度量学习

你可能感兴趣的:(西瓜书)