机器学习入门(12)——降维(Dimensionality Reduction)

目标一:数据压缩(Motivation I_ Data Compression)

降维也是一种无监督学习问题。
数据压缩不仅允许我们压缩数据,还因使用较少的计算机内存或磁盘空间,加快我们的学习算法。
将数据从二维降至一维: 假使我们要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,我们希望将测量的结果作为我们机器学习的特征。现在的问题的是,两种仪器对同一个东西测量的结果不完全相等(由于误差、精度等),而将两者都作为特征有些重复,因而,我们希望将这个二维的数据降至一维。
机器学习入门(12)——降维(Dimensionality Reduction)_第1张图片
将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特征向量。过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征向量。
机器学习入门(12)——降维(Dimensionality Reduction)_第2张图片
这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维。

目标二:可视化(Motivation II_ Visualization)

在许多机器学习问题中,如果我们能将数据可视化,我们便能寻找到一个更好的解决方案,降维可以帮助我们。
假使我们有有关于许多不同国家的数据,每一个特征向量都有50个特征(如GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的。使用降维的方法将其降至2维,我们便可以将其可视化了。
机器学习入门(12)——降维(Dimensionality Reduction)_第3张图片
但这样做的问题在于,降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去发现了。

主成分分析问题(Principal Component Analysis Problem Formulation)

主成分分析(PCA)是最常见的降维算法。
在PCA中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。
机器学习入门(12)——降维(Dimensionality Reduction)_第4张图片
上图中,左边的是线性回归的误差(垂直于横轴投影),右边则是主要成分分析的误差(垂直于红线投影)。
PCA将n个特征降维到k个,可以用来进行数据压缩,如果100维的向量最后可以用10维来表示,那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA 要保证降维后,数据的特性损失最小。
PCA技术的一大好处是对数据进行降维的处理。对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果,同时最大程度的保持了原有数据的信息。
PCA技术的一个很大的优点是:它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。
但这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。

主成分分析算法(Principal Component Analysis Algorithm)

机器学习入门(12)——降维(Dimensionality Reduction)_第5张图片
在这里插入图片描述

选择主成分的数量(Choosing The Number Of Principal Components)

机器学习入门(12)——降维(Dimensionality Reduction)_第6张图片
机器学习入门(12)——降维(Dimensionality Reduction)_第7张图片

压缩重现(Reconstruction from Compressed Representation )

机器学习入门(12)——降维(Dimensionality Reduction)_第8张图片

主成分分析法的应用建议(Advice for Applying PCA)

机器学习入门(12)——降维(Dimensionality Reduction)_第9张图片
错误的主要成分分析使用情况:

  1. 将其用于减少过拟合(减少了特征的数量)。这样做非常不好,不如尝试正则化处理。原因在于主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征。然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。
  2. 默认地将主要成分分析作为学习过程中的一部分,这虽然很多时候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑采用主要成分分析。

你可能感兴趣的:(机器学习入门(12)——降维(Dimensionality Reduction))