主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。注意:只有在指标个数特别多,且指标之间存在很强的相关性时,才能用主成分分析。(否则做出来效果不好)
主成分的特点:
主成分个数远远少于原有变量的个数
主成分能够反映原有变量的绝大部分信息:因子并不是原有变量的简单取舍,而是原有变量重组后的结果。
主成分之间应该互不相关:通过主成分分析得出的新综合指标(主成分)之间互不相关,由此解决多重共线性的问题。
主成分具有命名解释性
主成分分析法的主要任务有两点:
(1)确定各主成分Fi关于原变量Xj的表达式,即系数aij。
每一个主成分所提取的信息量可用其方差来度量。例如,方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大。因此,在所有的线性组合中选取的F1应该是X1, X2, …, Xp所有线性组合中方差最大的,故称F1为第一主成分。
(2)计算主成分载荷。主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度:
主成分分析的具体步骤如下:
(1)计算协方差矩阵Σ=(sij)p×p:
(2)求出Σ的特征值λi及相应的正交化单位特征向量。
Σ前m个较大的特征值λ1≥λ2≥…≥λm>0就是前m个主成分对应的方差,λi对应的单位特征向量aij就是主成分Fi关于原变量的系数。主成分的方差(信息)贡献率用来反映信息量的大小:
(3)选择主成分:最终要选择几个主成分是通过方差(信息)累计贡献率G(m)来确定。
当累积贡献率大于85%时,就认为能足够反映原来变量的信息。
(4)计算主成分载荷,原来变量Xj在诸主成分Fi上的荷载。
(5)计算主成分得分,计算样品在m个主成分上的得分:
Fi=ai1X1+ai2X2+…+aipXp
实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做数据变换等。
题目:
采用spss做主成分分析十分方便,这里直接用spss了
①导入数据,由于本题的五个指标都是费用指标,量纲是一致的,所以暂时不做数据标准化。
③结果分析:
相关性矩阵:变量间相关性越高,越适合进行主成分提取;
KMO值>0.5,球形度检验P<0.05,适合做主成分分析;
公因子方差:除了农药费,其他指标的信息提取度还不错
基于特征值>1的标准,系统提取出1个主成分,成分的特征值为4.095,可以解释总变异的81.891%,而若提取两个主成分可以使解释度达到97.744%,因此决定提取两个主成分。
碎石图中也可以看出,处在山坡上的有成分1、2,而3以后的就很平坦。
新的结果:
主成分的计算:
新建一个spss空白数据(ctrl加N),将成分矩阵的数据复制进去
分别计算主成分系数:
原始数据标准化,以便后续生成主成分公式:
主成分还可以进一步做主成分回归、主成分聚类。
题目来源:清风建模
参考书目:《数学建模》邬学军
《SPSS实战与统计思维》武松
本文仅用于自用笔记整理,方便复习。