pca 的理解

前两天转了一篇leftnoeasy的pca代码,总觉得写的不够详细,今天自己再写写


pca 要叫主成分分析,顾名思义就是把主成份给找了出来。主成份的表现形式就是主成份之间的方差最小,也就是说数据在主成份方向投影后误差最小。

比如说一维的数据

红色的线就是所有蓝点的主成份方向,蓝点投影到红线上误差最小,方差越大

至于想leftnoeasy说所的,维度的数据之间的方差最大。则意味着两个维度之间越独立,例如

pca 的理解_第1张图片

点投射到红线上的相关性明显要比投射到蓝线上的相关性要小。因此这里要重点说一下,pca的目的是维度之间方差最小,维度之类方差最大,(怎么听着在说lda了,汗)

所以,我们用pca就是为了找到一组最能够表现特征的向量空间,降维、去噪

下面来详细推导一下公式:

设有n个样本,每个样本的特征是p维,那么生成一个矩阵 X(n,p),每一行为一个样本,一共n行。 假设我们需要降到 q维。那么我们就需要找到q个维度方向(是X投影到该维度的方差最大)。我们知道矩阵的点投影到某个向量上 为A*u /|A||u|, u为被投影的向量.求方差的话|A||u|可以选择性的忽略。

到这一步了就可以引入特征值的作用了,Ax=lambda*x 。特征向量本来就是用来表示特征的方向。因此,我们直接去求出特征向量。具体推到思路leftnoeasy的那篇转载写的挺清楚了。特征向量的个数毫无悬念是p个,每个特征映射到该特征向量上是一个实数。选前q个特征映射实数,就是一组新的特征。







你可能感兴趣的:(lambda)