PCA及白化的数学理解

PCA(principal components analysis),是一种降维和去除相关性的方法,它通过方差来评价特征的价值,认为方差大的特征包含信息多,应予以保留。

这里写图片描述,每个样本X是d*1维度。

首先对每一维特征0均值处理,求得特征的协方差矩阵A,那么
PCA及白化的数学理解_第1张图片

在分析方差时,所以通过协方差矩阵特征值大小来看方差大小。所以将协方差矩阵相似对角化,协方差矩阵相似也就是对样本空间进行坐标变换。特征值就是变换后空间中特征的方差,因为变换后协方差矩阵变成对角形式,所以去除了相关性。
这样我们可以对特征值从大到下排序,选择前k个,然后把后面小的特征值设置为0,相应的特征向量也就是0了,我们得到变换后的数据
这里写图片描述

这样通过坐标变换和挑选特征值就实现了去相关和降维。

白化是将PCA去相关之后将每一特征的方差归一化到1,也就是吧变换后的特征都除以各自的标准差,这里写图片描述
当然如果在这过程中还想实现降维效果,可以设置保留方差的比例,如93%,筛除特征值即可。

你可能感兴趣的:(PCA及白化的数学理解)