About PCA

在处理高维度的数据时,比如数据个数为m,每个数据都是n维的,经常遇到的一个问题就是n*m(表示X这个矩阵维度是n*m)这个值非常大,这不仅对于存储,而且对于计算都是不小的麻烦,主成分分析法(PCA)可以有效的解决这个问题,主成分分析法的大概意思就是,让原来的每个特征经过线性组合生成新的几个特征,新的特征的个数,一般是远远小于原来特征的个数,这样我们处理每个数据的新特征就行,但是我们如何组成生成新的特征呢,或者说如何选择线性组合的系数,主成分分析的一个思想就是让这些数据集在新特征空间下的方差要尽量大。

假如现在要投影到一维空间,那么方差为

其中这里的数据已经标准化,均值为0,x(i)是一个列向量,u为一维空间的单位列向量。

经过化简:



因为数据已经进行了标准化,其中中间括号部分是X的协方差矩阵,两边同时乘以u以后:


可以知道lambda是协方差矩阵的特征值,我们要使lambda尽量大,也就是求最大的那个特征值,而当我们投影到K维空间时,我们要求的方差最大,我们可以在每一维上分别求“方差”,那么方差和最大等价于取协方差矩阵的前K大个特征值。

对于一个降维后的矩阵X’,可以通过

About PCA_第1张图片,

得到,其中括号中的分别是协方差矩阵前k个特征值所对应的特征向量。



你可能感兴趣的:(pca,主成分分析,特征向量)