降维模型 之 主成分分析法(PCA)

数据降维的作用
降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
主成分分析便是一种降维算法

主成分分析的思想

降维模型 之 主成分分析法(PCA)_第1张图片降维模型 之 主成分分析法(PCA)_第2张图片

计算步骤

降维模型 之 主成分分析法(PCA)_第3张图片
1、首先我们将其变准化处理
降维模型 之 主成分分析法(PCA)_第4张图片
2、计算标准样本的协方差矩阵
降维模型 之 主成分分析法(PCA)_第5张图片
3、计算R的特征值和特征向量
降维模型 之 主成分分析法(PCA)_第6张图片

4、计算主成分及累计贡献率
降维模型 之 主成分分析法(PCA)_第7张图片
5、写出主成分
在这里插入图片描述

6、根据系数分析主成分代表的意义
对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大

7、利用主成分的结果进行后续分析
可用于聚类分析(方便画图)、回归分析等。千万不能用于评价类模型!!!

例题1

降维模型 之 主成分分析法(PCA)_第8张图片降维模型 之 主成分分析法(PCA)_第9张图片
降维模型 之 主成分分析法(PCA)_第10张图片
注!!
在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。
主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。
主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。
主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。

例题2

降维模型 之 主成分分析法(PCA)_第11张图片降维模型 之 主成分分析法(PCA)_第12张图片

关于聚类
老师认为,主成分聚类最大的意义就是能帮我们可视化最后的聚类效果,毕竟,使用主成分是会降低部分信息的。言外之意,只有在指标个数特别多,且指标之间存在很强的相关性时才用主成分聚类。
关于回归
主成分回归可用来解决多重共线性的问题
降维模型 之 主成分分析法(PCA)_第13张图片
实际写作时能解释清楚的话最好既用PCA又用逐步回归
注意!!!!主成分分析的滥用:主成分得分

参考资料:清风《数学建模学习交流》
王学民:对主成分分析中综合得分方法的质疑

你可能感兴趣的:(数学建模,数学建模,pca降维,数据分析)