PCA的理解思路

PCA的资料网上很多,原理性的东西大家可能在网上看大牛写的,我这里只是写一个基本的理解思路。主要参考一下大神的资料https://zhuanlan.zhihu.com/p/21580949

   PCA主要通过求数据集的协方差矩阵最大特征值对应的特征向量,由此找到数据方差最大的几个方向,对数据达到降维的效果,将一个n维的向量降低到d维,其中d

      矩阵的乘积的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。此处我们将目标样本转移转换到另一个空间中,这个空间比原空间的维度要小,就起到了降维的作用。

      所以我们的目标变为:寻找一个最能代表样本信息的矩阵,最大化的转化到另一个空间,此处抛出两个问题:1、我们希望投影后的样本能够最大程度地保留原来的信息,那么该用什么表示原样本的特征呢,2、这个新空间的基是什么。

解答1、我们希望投影后投影值尽可能分散,也就是尽可能少的样本为重叠而消失,尽可能的出现每个样本,投影后的样本也就最大程度的还原原样本,而这种分散程度,可以用数学上的方差来表述。

     在更高维上,如三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两种特征尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个特征不是完全独立,必然存在重复表示的信息。由此引出协方差。也就是原样本可以用方差最大,协方差最小的一种形式来表示。所以想到协方差矩阵可以可以完美的展示出这些信息,所以我们目前的目标就变成了这个协方差矩阵经过基变换,能最大程度的在基上表现出了,所以转换到如何找到这个基底;

解答2:这个问题就转化为求解特征向量和特征值了。那么P特征向量的前K行就是要寻找的基,用特征向量的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。  

处理前先对样本进行均值化处理,是为了方便计算方差和协方差

你可能感兴趣的:(PCA的理解思路)