主成分分析

首先解释下什么是主成分分析,网上有这么一个解释,我觉得挺通俗易懂的——主成分分析法(PCA)是将分散在一组变量上的众多信息集中到少数几个综合指标(主成分)上,一遍描述数据集内部结构。它是通过降维的方法,把多指标转化为少数几个综合指标的一种多元统计分析方法。也就是用研究m维的y空间代替p维的x空间 (m

F=a1y1+a2y2+a3y3+…+aiyi  (a代表方差贡献率,y代表主成分)

使用主成分分析前提:
要求指标间具有一定的相关性,如果每个指标很独立的话,就不能采用这种方法。KMO是做主成分分析的效度检验指标之一,以前的文献中写说,KMO在0.9以上,非常合适做因子分析;在0.8-0.9之间,很适合;在0.7-0.8之间,适合;在0.6-0.7之间,尚可;在0.5-0.6之间,表示很差;在0.5以下应该放弃.

指标同趋化:有一些指标是逆向的,需要转为正指标。一般用其倒数代替原指标即可。

对数据的处理得到特征向量、特征值、特征值贡献率以及累积贡献率

你可能感兴趣的:(机器学习,统计学)