维度规约（特征的提取和组合）

介绍
第一部分参数方法——类密度模型参数估计
第二部分监督学习——分类（基于似然的方法）
第三部分监督学习——分类（基于判别式的方法）（参数方法——判别式参数估计）
第四部分监督学习——回归
第五部分监督学习——关联规则
第六部分维度规约（特征的提取和组合）
第七部分半参数方法
第八部分非监督学习——聚类
第九部分非参数方法——密度估计
第十部分非参数方法——决策树实现的判别式
第十一部分多层感知器——非参数估计器
第十二部分局部模型
第十三部分支持向量机与核机器
第十四部分隐马尔科夫模型
第十五部分参数的贝叶斯估计
第十六部分集成学习——组合多学习器
第十七部分增强学习
第十八部分机器学习实验
第十九部分特征工程与数据预处理

任何分类和回归方法的复杂度都依赖于输入的数量。我们需要输入数据含有可供决策的信息。理想情况下，不需要将特征选择或特征提取作为一个单独的过程。并且有效的方法，应该能够利用任何必要的特征，并丢弃不相关的特征。

但将降维作为一个单独的预处理步骤，有如下一些原因：

1、在大多数机器学习算法中，复杂度依赖于输入的维度d及样本规模N。为了减少存储及计算时间，需要考虑降低维度。同时降低d也降低了检验算法的复杂度。

2、去除不必要的采集数据，

3、更简单的模型可以在小数据集上更鲁棒。（《监督学习——分类（基于判别式的方法）（参数方法——判别式参数估计）》多元情况部分中，提到过高维输入x可能存在奇异的协方差矩阵估计）

4、当数据可以用较少的特征解释时，有利于理解数据背后的过程，并提取知识，利于解释。

降低维度主要有两类方法：特征选择、特征提取。

特征选择——从d个维中找到提供最多信息的k个维度，丢弃其他（d-k）个维度的数据。

特征提取——找到k个维度的新集合，这k个维度是原来d个维度的组合。这些方法可以是监督的或者非监督的。如同为线性投影方法的主成分分析（PCA）和线性判别分析（LDA）分别是非监督的和监督的。线性维度归约以外，还有非线性维度归约方法，如等距特征映射（Isomap）、局部线性嵌入（LLE）、拉普拉斯特征映射。

线性空间中的降维

主成分分析

1、主成分计算

在投影方法中，我们要找到的是从原d维输入空间到新的维空间的、具有最小信息损失的映射。

x在方向\omega 上的投影为。

PCA是一种非监督方法，其最大化的准则是方差，主成分是这样的，样本投影在上后最分散。同时为了保证解唯一，要求。

如果且，则。寻找使得在约束下最大化。写成拉格朗日问题，有：

关于求导并令它等于0，有，也就是。是的特征向量，是对应的特征值。因为我们想最大化方差，特征值就等于方差，所以选择最大化特征值的特征向量。

因此，主成分是输入样本协方差矩阵的具有最大特征值的特征向量。

第二个主成分也应该最大化方差，具有单位长度，并且与正交（也就是与不相关）。则对第二个主成分有：

关于求导并令它等于0，有。左乘，得。

其中。

于是得，。表明是得具有第二大特征值的特征向量。类似地，其他维可由递减特征值的特征向量给出。并且，因为是对称的，所以对于任意两个不同的特征值，对应的特征向量是正交的。

最后有降维后的数据，其中W的k列是\Sigma 的估计S的k个主特征向量。投影前从 x 中减去样本均值 m ，将数据原点中心化。

等同地，我们想找到一个矩阵W，使得(不失一般性，x已经中心化)，，其中D是对角矩阵，既我们希望得到不相关的z_i。令S是D的估计，矩阵C的第 i 列是S的规范化特征向量，则。且有

$\begin{align}S&=SCC^T\\&=S(\mathbf{c_1},\mathbf{c_2},\cdots,\mathbf{c_d})C^T\\&=(\lambda_1\mathbf{c_1},\lambda_2\mathbf{c_2},\cdots,\lambda_d\mathbf{c_d})C^T\\&=\lambda_1\mathbf{c_1}\mathbf{c_1^T}+\cdots+\lambda_d\mathbf{c_d}\mathbf{c_d^T}\\&=CDC^T\end{align}$

其中D是对角矩阵，对角元素是特征值\lambda_i。这称为S的谱分解。C是正交的，有。所以可以令，是对角矩阵。

2、选取主成分

得到了各主成分，根据特征值大小，可统计方差比例，取贡献了一定比例以上的前k个主成分。或可通过忽略小于平均输入方差的特征值对应的特征向量，来得到k个主成分。

PCA解释方差，但对离群点很敏感。少量离群点会明显影响方差，从而对特征向量产生很大影响。一般会通过计算数据点的马氏距离，丢弃孤立的离群点，保证估计的鲁棒性。

因子分析

因子分析（FA）同PCA一样时非监督的。假设存在不可观测的潜在因子集合，它们组合成样本实例。与PCA方法相反，FA的目的时通过较少的因子 z 刻画观测变量 x 之间的依赖性。也就是相较于PCA的，FA试图找到 z 使得其构成 x ：。

在PCA中，挑选大特征值的特征向量构成W，损失了没有被选中的特征值对应的方差。但FA虽也在一个更小的维空间重构数据，但没有丢失信息。

特征嵌入

X是的样本数据矩阵，协方差矩阵是的。如果X已中心化，具有零均值，则协方差矩阵等于。PCA使用的特征向量，谱分解是，C的各列是的特征向量，D是对应特征值构成的对角矩阵。

如果我们想将维度归约到，在PCA中，假定W中的特征向量按特征值大小排序，取W的前k列（具有最大特征值的k个特征向量），我们记这些特征向量为，对应特征值为。从原始输入空间映射到新的k维空间：

对任意，有

因此，是的具有特征值的特征向量。注意，是的，而是的。

其谱分解为，其中是的，的列是的特征向量（单位化后的），是对应特征值构成的对角矩阵。的N维特征向量是新的特征嵌入（FE）空间的坐标。

求得了，可直接得到（PCA所做的）：

通常，这是使用PCA来计算更简单。而有时，则计算容易一些。

对于PCA，得到的是投影向量，可通过取x与特征向量的点积，将任意一个x投影到新的k维空间。但线性嵌入没有学习得到投影映射的模型，每当有一个新的数据加入，都需要重新进行计算。

多维定位

假设N个点，知道每对点间距离（不需知道这些点的坐标，维度，也不必知道如何计算这些距离）。多维定位（MDS）是把这些点映射到低维空间的方法，使它们在低维空间重得欧式距离尽可能接近原始空间中的给定距离。

可以使用MDS进行维度归约，通过d维 x 空间的逐对欧氏距离，将距离作为MDS的输入。如有样本，其中，在运用MDS方法时，不需知道 x 的具体坐标。对每两个点 r 和 s。它们之间的平方欧氏距离为

，其中。

将数据中心化并假定。由此有。

并记，得到

由上述各等式可得：

故通过已知的，计算得到了，也就是得到了。也就是线性嵌入的结果。通过B的特征向量得到各实例在新空间中的坐标。

PCA、FA与MDS做了同样的事情，当d

上面介绍的MDS用线性映射的方法，将原空间上的数据，线性地映射到新空间：

MDS中也可以使用非线性的映射，这被称为Sammon映射。映射中的标准化误差称为Sammon应力：

$\begin{align} E(\theta |X)&=\sum_{r,s}\frac{(\|\mathbf{z}^r-\mathbf{z}^s\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2}\\ &=\sum_{r,s}\frac{(\|g(\mathbf{x}^r|\theta)-g(\mathbf{x}^s|\theta)\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2} \end{align}$

可对g使用任何回归方法，训练最小化训练数据 X 上的Sammon应力。

对于分类的情况，可在距离的定义中包含类信息，如，其中是r和s所属类之间的距离。应该主观地提供这个类间距离，用交叉验证优化。

线性判别分析

线性判别分析（LDA）是一种用于分类问题的维度归约的监督方法。

两类问题，考虑两个类，的样本，希望找到由向量定义的方向，使得当数据投影到上时，来自两个类的样本尽可能分开。

是到上的投影。和是类样本在投影前和投影后的均值。注意这里，而。设样本，对有，有。

，。

来自两个类的样本投影后在均值周围的散布是

，。

投影后，为了使各类尽可能地分开，则希望均值金尽可能远离，并且类实例散布在尽可能小的范围里。既，大，小。费希尔线性判别式是这样的，最大化。其中

$\begin{align} s_1^2+s_2^2&=\sum_t[(\omega^T\mathbf{x}^t-m_1)r^t+(\omega^T\mathbf{x}^t-m_2)(1-r^t)] \\ &=\sum_t[\omega^T(\mathbf{x}^t-\mathbf{m}_1)(\mathbf{x}^t-\mathbf{m}_1)^T\omega r^t+\omega^T(\mathbf{x}^t-\mathbf{m}_2)(\mathbf{x}^t-\mathbf{m}_2)^T\omega (1-r^t)] \\ &=\omega^TS_W\omega \end{align}$

其中是类间散度矩阵，是类内散布的和。从而

，关于求的导数，并令其为0，得

其中是常数，有，c是常数。这里关注的是的方向，故c取1。

对于K>2个类，我们希望找到矩阵W，使得，其中z是k维的，矩阵W是矩阵。的类内散布矩阵是

，其中对有，否则为0。

总的类内散布矩阵是。

类间散布矩阵是，其中。

投影后类间散布矩阵为，类内散布矩阵是，都是矩阵。

同样地，我们希望类间散布更大，类内散布更小，故最大化，其解为的最大的特征向量。注意，是K个秩为1的矩阵的和，并且可知它们之中最多只有K-1个是独立，因此S_B的秩最大只有K-1。同2类一样，数据在上的投影自然是降维的。

为了使用LDA，需要类内散布矩阵可逆。如果不可逆，可先用PCA消除奇异性，在运用LDA。同时，应该确保PCA 没有把维度降得太低，使得LDA没有多少事可做。

相比于PCA只注重总体的方差，LDA的监督性注重类间散布。

流形学习

前面所介绍的方法，都需要数据落在一个线性子空间中。但这一前提并不总是成立。等距特征映射（Isomap）与下面的局部线性嵌入和拉普拉斯特征映射，不同于上面的方法，考虑的是流形（mainfold）上的输入数据，且为非监督方法。关注的局部数据的逐对距离，而不是全局相似性。

等距特征映射

Isomap使用所有数据点对之间的测地距离（沿流形的距离）。对输入空间中靠近的邻近点，可以使用欧氏距离。对距离远的点，用沿流形的各点之间的距离和来近似。

视两个点 r 和 s 是连接的，如果或 s 是 r 的n个最近邻之一，则其rs边长是。对任意两个节点 r 和s，是它们之间最短路径的长度。然后在可上应用MDS。

与使用MDS一样，由于使用了线性嵌入来将N个数据放到一个低维空间，所以没有学习一个从原空间到低维空间的映射函数。

局部线性嵌入

局部线性嵌入（LLE）从局部线性拟合来发现全局非线性结构。其基本思想是，流形的每个局部可以线性地近似。每个点可通过其邻近点的线性加权和给出。

原数据和它的近邻可使用最小二乘法找到重构权重。其最小化误差，

且满足。

LLE试图用重构权重反应数据的固有几何性质，期望这种性质在映射后的新空间中也能保持。因此，LLE方法下一步保持固定，来取新坐标 z 的值。

与Isomap一样，LLE的解是N个点的新坐标，不学习映射。对此有两种解决方案：

1、使用相同的思想，对新元素，在原始 d 维空间中找出的n个近邻（原数据集中的实例，已映射到新空间），并且首先学习最小化的重构权重。然后使用它们在新的k维空间中重构。

2、使用映射后的结果作为训练集，可训练任意回归器。例如多层感知器，作为从到映射的近似。

Isomap和LLE中，全局非线性组织通过整合部分重叠的局部线性约束而得到。

拉普拉斯特征映射

考虑数据实例和它们的投影。假定实例点对之间相似度为，可在原始空间中计算。r和s相等时取最大值，并且它是对称的。

这里的目标函数是，意义在于相似的实例应该放在新空间中的邻近位置，而不相似的实例在新空间中的位置相对不关心。

计算，MDS方法中使用点积。但在拉普拉斯特征映射中，同Isomap和LLE一样，只关注局部相似性。通过r 和s 之间的某个最大距离，或者通过k最近邻来定义邻域，邻域之外，设置。邻域之内，对于用户指定的某个值，使用高斯核把欧氏距离转换为相似度：

定义了后，最小化目标函数

$\begin{align} &\min \sum_{r,s}\|\mathbf{z}^r-\mathbf{z}^s \|^2B_{rs}\\ &\min \sum_{r,s}\sum_{k}(z_k^r-z_k^s)^2B_{rs}\\ &\min \sum_k(\sum_{r,s}B_{rs}(z_k^r)^2-2\sum_{r,s}B_{rs}z_k^rz_k^s+\sum_sB_{rs}(z_k^s)^2)\\ &\min \sum_k2(\sum_{r,s}B_{rs}(z_k^r)^2-\sum_{r,s}B_{rs}z_k^rz_k^s) \end{align}$

简写为，其中D是的对角矩阵，B是构成的矩阵。

定义图拉普拉斯（graph Laplacian）。目标最小化。约束。与特征嵌入一样，得到新空间中的坐标 z。其解是L的特征向量，又因为我们要最小化，所以选则最小特征值的特征向量作为解（注意忽略0特征值）。

拉普拉斯特征映射是一种特征嵌入方法。也就是直接在新空间中得到坐标，而没有可用于新实例的映射模型。

拉普拉斯特征映射使用特征嵌入的思想，并保持逐对相似性。相同的思想也用于核机器，核机器中逐对相似性由核函数给出。

对特征提取和决策之间，如果特征提取过程做的很好，则分类或回归算法任务就会容易很多。

核维度规约

核机器的运用，将非线性空间的问题变为新的线性空间上的问题。具体对核方法的介绍见《支持向量机与核机器》一节。

对于维度规约方法，也可以运用核方法。对于处理线性子空间的方法，不能直接运用在流形问题上。核版本的方法可以解决这个问题，核机器内在地将原问题映射到新的线性子空间中，再在线空间上采用线性方法。核PCA使用核矩阵的特征向量核特征值，这对应于在基函数映射后的的空间上做线性维度规约。而在MDS中，核值则作为相似度值。`