主成分分析算法

主成分分析(PCA)是最常见的降维方法,其主要是找到一个方向向量,当我们把所有数据都投影到方向向量上时,希望投射平均均方误差尽可能地小。该方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。

PCA从n维减少到k维的过程:

1、均值归一化。需要计算所有特征的均值,然后令Xj = Xj -μj 。如果特征是在不同的数量级上,还需要将其除以标准差。

2、计算协方差矩阵:


3、计算协方差矩阵的特征向量


PCA应用建议:

1、不要将PCA用于减少过拟合(减少特征数量)。因为PCA只是近似的丢掉一些特征,但并不考虑任何与结果变量有关的信息,所以很有可能会丢失掉非常重要的特征。减少过拟合应该采用正则化处理,正则化会考虑结果变量,因此不会丢掉重要的数据。

2、不要将PCA一开始作为学习部分,最好还是从所有特征开始,在有必要的时候才考虑PCA。



你可能感兴趣的:(机器学习个人笔记)