主成分分析和奇异值分解

1,主成分分析

1,为什么需要PCA?

 真实的训练数据总是存在各种各样的问题:

1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。

2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?

3、 拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。要拟合房子特征->房价的这么多特征,就会造成过度拟合。

4、 这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?

5、 在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么怎么滤去这些噪音呢?

     回顾我们之前介绍的《模型选择和规则化》,里面谈到的特征选择的问题。但在那篇中要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。

     而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。

     下面探讨一种称作主成分分析(PCA)的方法来解决部分上述问题。PCA的思想是将n维特征映射到k维上(k

2,PCA 最大方差理论的直观解释

PCA 这个名字看起来比较玄乎,其实就是给数据换一个坐标系,然后非常生硬地去掉一些方差很小的坐标轴。

例:三维空间中,有一些数据只分布在一个平面上,我们通过“坐标系旋转变换”,使得数据所在的平面与 xx,yy 平面重合,那么我们就可以用 x′x′,y′y′ 两个维度表达原始数据,并且没有任何损失。

  • 在低维的空间中,我们可以用几何直观来解释:同样的数据,用不同的坐标系表示。
  • 在高维的空间中,我们就得通过代数的方法来依次寻找这些坐标轴方向,第 1 坐标轴方向就是第一主成分方向,第 2 坐标轴方向就是第二主成分方向,依次类推,使得原始数据在新的坐标轴上对应于每一个特征的方差是逐渐减少的,去掉那些我们认为方差很小的后面的主成分方向上的坐标,就完成了 PCA。

所以 PCA 不是特征选择,而是特征抽取,抽取出来的特征是上帝视角,很多情况下,人类很难一眼就看清这些主成分代表了什么含义。

3,PCA 算法优缺点分析

1,优点

1、降维使得原始数据的维度减少,送入算法,在训练过程中的消耗减少,能够提高效率;
2、PCA 丢弃了原始数据的一些信息,如果这些信息恰好是噪声,这就是 PCA 带给我们额外的好处,有点两全其美的意思;
3、PCA 虽然丢失了原始数据的一些信息,但和提高机器学习算法运算效率来说,还是比较轻的。

2,缺点

1、PCA 丢弃了原始数据的一些信息,如果这些数据恰好很重要,就不适合用 PCA 了;
2、PCA 分析得到的主成分意义不明确,不具有可解释性。

注意事项:

在进行降维之前,要先做数据预处理,通常要去均值。有的时候还要将数据的方差处理成 1 ,即数据标准化

4,最大方差理论

在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。

因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。

1,内积与投影的关系

下图为投影的几何表示:

 

主成分分析和奇异值分解_第1张图片

主成分分析和奇异值分解_第2张图片

主成分分析和奇异值分解_第3张图片

主成分分析和奇异值分解_第4张图片

2,根据我们方差最大化理论,需要投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)

主成分分析和奇异值分解_第5张图片

我们要求的是最佳的u,使得投影后的样本点方差最大。在u1方向上的投影的绝对值之和最大(也可以说方差最大),计算投影的方法上面已经阐述,就是将x与u1做内积,由于只需要求u1的方向,所以设u1也是单位向量。

补充一下矩阵及其特征值的意义。矩阵应理解为一种空间变换(从一个空间到另一个空间的变换)。矩阵M是m×n维的,如果m=n则变换后空间维数不变,如果n

参考:

PCA 最大方差理论的直观解释https://www.cnblogs.com/liweiwei1419/p/9869549.html

主成分分析(Principal components analysis)-最大方差解https://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

PCA的数学原理http://blog.codinglabs.org/articles/pca-tutorial.html

主成分分析(PCA)原理详解https://blog.csdn.net/zhongkelee/article/details/44064401

https://www.cnblogs.com/jiang1st2010/archive/2013/05/19/pca.html

2,PCA的步骤

参考:StatQuest with Josh Starmer 主成分分析法(PCA)https://www.bilibili.com/video/BV1C7411A7bj?p=1

主成分分析和奇异值分解_第6张图片

1,中心化

计算所有数据的平均值,以该平均值为原点.

主成分分析和奇异值分解_第7张图片主成分分析和奇异值分解_第8张图片

2,画一条过原点的最佳拟合所有数据的线

主成分分析和奇异值分解_第9张图片

3,如何确定拟合程度?

主成分分析和奇异值分解_第10张图片

主成分分析和奇异值分解_第11张图片

主成分分析和奇异值分解_第12张图片

主成分分析和奇异值分解_第13张图片

主成分分析和奇异值分解_第14张图片

主成分分析和奇异值分解_第15张图片

主成分分析和奇异值分解_第16张图片

主成分分析和奇异值分解_第17张图片

主成分分析和奇异值分解_第18张图片

主成分分析和奇异值分解_第19张图片

主成分分析和奇异值分解_第20张图片

主成分分析和奇异值分解_第21张图片

主成分分析和奇异值分解_第22张图片

主成分分析和奇异值分解_第23张图片

主成分分析和奇异值分解_第24张图片

主成分分析和奇异值分解_第25张图片

主成分分析和奇异值分解_第26张图片

主成分分析和奇异值分解_第27张图片

主成分分析和奇异值分解_第28张图片

主成分分析和奇异值分解_第29张图片

主成分分析和奇异值分解_第30张图片

主成分分析和奇异值分解_第31张图片

主成分分析和奇异值分解_第32张图片

主成分分析和奇异值分解_第33张图片

主成分分析和奇异值分解_第34张图片

主成分分析和奇异值分解_第35张图片

主成分分析和奇异值分解_第36张图片

主成分分析和奇异值分解_第37张图片

3,奇异值分解

参考:如何通俗地理解奇异值?https://www.matongxue.com/madocs/306.html

一文让你通俗理解奇异值分解https://www.jianshu.com/p/bcd196497d94

奇异值分解及几何意义https://www.jianshu.com/p/e1b8a315fd36

主成分分析和奇异值分解_第38张图片

主成分分析和奇异值分解_第39张图片

主成分分析和奇异值分解_第40张图片

SVD分解的一种解释,即M可以将一组正交基映射到另一组正交基。

主成分分析和奇异值分解_第41张图片

主成分分析和奇异值分解_第42张图片

M可以将一组正交基映射到另一组正交基:

主成分分析和奇异值分解_第43张图片

 

你可能感兴趣的:(机器学习入门)