一 定义及用途
定义:即主成分分析方法,无监督学习方法,是一种使用最广泛的数据降维算法。
用途:用于特征降维,通过分析主成分先显出最大的个别差异,发现更便于人类理解的特征;也可以用来削减回归分析和聚类分析中变量的树木
二 出现原因
在很多场景中对多变量数据进行观测,在一定程度增加数据采集工作量。更重要的是:多变量之间可能存在相关性,从而增加问题分析的复杂性
如果对每个指标(特征)单独分析,分析结果往往是鼓励,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。
因此,需要在减少分析指标(特征)的同时,尽量减少原有指标(特征)包含信息量的损失,简言之,就是尽可能使用最少的指标(特征)来表达最多的信息量,以达到对权全量数据进行全面分析目的。由于各变量存在一定相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相干,及达到用最少综合指标分别代表存在于各个变量中的各类信息。
主成分分析就属于该类降维算法,通过将关系紧密的特征合成尽可能少的新变量,进行特征降维。
三 主成分分析的思想
PCA 主要思想是 将n维特征映射到k维上,这k是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征,如假设有两个特征画出散点图
如果只保留特征1或特征2,就需要考虑保留那个特征比较好,亦即能过保留最多的信息量
选择特征有个标准:保留特征信息量的体现,是拥有更高的可区分度,同时也保留着不放映射之前的空间信息
此时发现,如果所有点都映射到y(特征2)轴上,点与点之间的距离更近了,并不符合原有空间分布,因此保留特征1回更合适,点与点之间的间距更大,区分度也更加明显。
也就是说,我们要考虑的问题是:如何找到样本间剧最大的轴。其中,一般使用方差(Variance)来定义样本之间的间距:
Var(x) = 1/m*[(x1-avg(x))^2+…+(xn-avg(x))^2)
四.主成分分析法的步骤
对于如何找到样本检局最大的轴,使得样本空间的所有点映射到这个轴的方差最大(方差越大,意味特征值波动越大,侧面反映样本间的间距更大)
第一步:样本归0,将样本均值归0(demean),即所有样本检区样本的均值。样本的分布没有改变,只是将坐标轴进行移动。体现在方差公式中,计算过程就少一项,计算效率更快
Var(x) = 1/m[(x1-avg(x))^2+…+(xn-avg(x)^2)]
第二步:找到样本点映射后放出最大的单位向量w
求一个轴的方向 w= (w1,w2)需要定义一个轴的方向 w = (w1,w2),使得我们的样本,映射到w以后,使得X映射到w之后的方差最大:
括号中的部分是一个项链,更加准确的描述应该是(向量的模),即每个分量对应的长度,最后合成该单位向量w的模
因为前面已经均值归0,所以这里只需下面式子最大,即寻找能够取得最大方差的各个特征
映射过程如下:红色的线是我们要找的方向 w = (w1,w2);第i 航的样本点X(i) = ( X1(i), X2(i) ),X(i) 此时也是一个向量;映射到w上做一个垂线,交点的位置就是X(i) project = ( X(i) pr1, X(i) pr2)对应的点;真正要求的X(i) project 的模的平方,蓝色线段对应的平方
把一个向量映射到另一个向量上,对应的映射长度是多少,时间上这种映射就是点乘:
因为w向量是要找的轴,是一个方向,因此使用方向向量就可以。长度为
因此,在三角形中有:
主成分的目标是:求w ,是的Var( X project) = 1/m [(X1)*w+…+(Xn)*w]
如果是n维数据,则有 m个样本,每个样本都有n维特征,求出均值归0 后的单位向量w,使得取到方差最大值
五.总结
主成分分析法(PCA),数据降维算法,将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相干的,即用酵素的综合指标(衍生特征集)分别代表存在于各个变量中的各类信息,达到数据降维的效果
所用的方法就是“映射”,将n维特征映射到k维上,这k维是全新的正交特征,也被称为主成分,是在原有n维特征基础上衍生构造出的k维特征。我们的目的是找到映射后的样本间距的最大轴
其过程分两步: 1.样本归0 。 2.找到样本点映射后方差最大的单位向量w
最后转换为求目标函数的最优化问题:求w,使得Var(X project) = 1/m [X(1)*w + … + X(m)*w] ^ 2 最大
此时我们可以用搜索策略,实用梯度上升法来解决