模式识别与机器学习(六):数据降维

1.数据降维

数据降维有很多种,这里我们列出几个较为简单的

模式识别与机器学习(六):数据降维_第1张图片

2.PCA

PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。

  • 求中心化后样本矩阵的协方差
  • 求协方差矩阵的特征值和特征向量
  • 将求出的特征值按从大到小顺序排列,并将其对应的特征向量按照此顺序组合成一个映射矩阵,根据指定的PCA保留的特征个数取出来映射矩阵前n行或前n列作为最终的映射矩阵。
  • 映射矩阵对数据进行映射,达到数据降维的目的。

2.LDA

投影后类内距离最小,类间距离最大

  • 计算类间矩阵和类内矩阵
  • 计算类内矩阵的逆矩阵*类间矩阵
  • 接着和PCA差不多

3.MDS

多维尺度变换(multidimensional scaling, MDS)是在低维空间去展示高维多元数据的一种可视化方法。该方法看起来类似于利用主成分PCA作图,或者对两个线性判别量的得分作图。与上述方法不同的是,多维尺度变换的基本目标是将原始数据“拟合”到一个低维坐标系中,使得由降维所引起的任何变形最小。多维尺度变换涉及到的问题可以描述为:当n个项目中各对项目之间的相似性(或距离)给定时,求这些项目在低维空间的表示,并使得项目间的接近程度与原先的相似性(或距离) “大体匹配”。

模式识别与机器学习(六):数据降维_第2张图片

4.自动编码器

传统的自动编码器是一种数据的压缩算法

目前自编码器的应用主要有两个方面,第一是数据去噪,第二是为进行可视化而降维。配合适当的维度和稀疏约束,自编码器可以学习到比PCA等技术更有意思的数据投影,其结构如图所示

模式识别与机器学习(六):数据降维_第3张图片

模式识别与机器学习(六):数据降维_第4张图片

4.1降噪编码器

降噪自动编码器,首先对干净的输入信号加入噪声产生一个受损的信号。然后将受损信号送入传统的自动编码器中,使其重建回原来的无损信号。

模式识别与机器学习(六):数据降维_第5张图片

降噪自编码器通过对输入信号人为地进行损坏,主要是为了达到两个目的,首先是为了避免使隐层单元学习一个传统自编码器中没有实际意义的恒等函数,其次就是为了使隐层单元可以学习到一个更加具有鲁棒性的特征表达。

4.2堆叠降燥自动编码器

堆叠降噪自动编码器是无监督学习(自监督)的一种方法,而降噪自编码器是一种有监督方法 

4.3变分自动编码器

变分自编码器是一种主要用于数据生成的自编码器的变体.当作为生成模型时,首先利用数据训练变分自编码器,然后只使用变分自编码器的解码部分,自动生成与训练数据类似的输出.

模式识别与机器学习(六):数据降维_第6张图片


 

你可能感兴趣的:(模式识别与机器学习,matlab,算法,机器学习)