主成分分析与因子分析

主成分分析


从一堆变量中提取出综合变量,综合变量可以涵盖原始变量中绝大多数的信息。从而可以简化变量数目
一般在生物医药领域,浓缩的成分应该包括全部信息的85%以上。但社会科学因为影响与不可控因素较多,能达到70%已经不错。

步骤
分析—降维—因子:勾选“系数”和“KMO和巴特利特球形度检验”。
(2)提取设置:方法选择“主成分”,此时不能更改其他方法,否则就不叫主成分分析了;输出默认“未旋转因子解”,并勾选“碎石图”,该图用于从图示角度判定提取几个主成分较为合适;提取标准先默认“基于特征值大于1”,看提取的结果,如果特征值大于1发现提取的信息量不够,则降低标准,如特征值>0.8,>0.6,或者直接根据特征值>1的结果,直接选择“固定因子数目”。
(3)点击“继续”,点击“确定”运行。变量相关性矩阵:对于主成分分析而言,变量间相关性越高,越适合进行主成分提取。此处大致看看就可,不是主要判定结果。
(2)KMO检验:看kmo和p值

kmo0.9以上非常合适,0.8为合适,0.7表示一般,0.6为不太合适,0.5以下是不合适。
(3)公因子方差:如果每个变量包含信息为1的话,此处进行主成分的提取,每个变量到底有多少信息能够被提取出来,提取的越多,说明信息浓缩得越好。
(4)总方差解释:提取的主成分到底能够解释总体的多少信息。比如,基于特征值>1的标准,系统提取出2个主成分,涵盖了76%。如果加入第三个,信息就变为提取了86,则要选择第三个。
(5)重新调整:因为刚才按照工作能力(特征值>1),仅能提取76.842%,不够,因此增加提取,提取因子数设置为“3”。
再次分析结果:找到提取总方差解释,发现软件最终提取了3个主成分。可以解释87.961%,已经大于85%,总体效果不错。
(7)碎石图:又称为山体滑坡图,山坡上越高的点,其势能越大,对于研究而言就越重要。图示如何判定选取几个主成分呢?就是过了该点之后的点基本处于水平,水平了就是不重要。
(8)成分矩阵:注意此处成分矩阵并不是成分系数,要想拿到我们提取的3个主成分,还需要经过几步计算。
主成分的计算,其实就是构建主成分与原始自变量之间的方程。因为SPSS没有直接进行主成分分析的模块,因此无法直接生成主成分,需要手动计算。
通常有两种方式:一是用成分载荷除以各自的特征值得到主成分系数,然后用主成分系数除以标准化后的自变量X。
二是利用未旋转因子分析的得分系数乘以特征值,然后再乘以标准化的自变量X。两种结果几乎一致,先学第一种。
(1)产生主成分系数:先复制成分载荷
(2)计算主成分系数:转换→计算变量,生成b1、b2和b3主成分系数,b1=a1除以根号下成分1的特征值,如图20-13所示。继续计算b2=a2/ sqr(t1.953);b3= a3/ sqr(t0.667)。这个1.953和0.667就是特征值(总方差解释中的总计)

 主成分分析不是一步到位的,先按照特征值大于1进行预分析,如果可解释的总方差达到研究要求,如85%以上,则OK;如果可解释总方差较小,则需要增加提取成分的数目;
2. 碎石图是定性地帮助判断提取几个主成分,一般目测为该点之后的点与X轴近似平行,但也有专门的平行性检验,请参考相关书籍。
3. KMO最大值为1,KMO>0.9为效果最佳,0.7以上可以接受,0.5以下不宜做主成分分析。

主成分回归


通过主成分分析得到了综合变量,将综合变量进行回归分析
1. 打开数据,分析→描述统计→描述,将待标准化变量放入框中,勾选“标准化另存为变量”即可
2. 分析→回归→线性
3. 点击“统计”勾选“共线性诊断”,点击“继续”。
4. 初步结果:可以发现方差膨胀因子(VIF)多个指标大于10,存在高度的共线性,不适合直接做线性回归。
5. 主成分提取:分析→降维→因子,点击“提取”,选择固定因子数量2,这里是已经预分析发现提取两个信息量才足够,各位分析自己数据的时候,也要先行预分析一下哦!
6. 点击“得分”,选择“保存为变量”,点击“继续”,回到主成分窗口运行。
7. 主成分结果:如图20-23所示,提取2个主成分,可解释总方差为97.276%,已经远远大于85%。说明提取2个已经足够。
8. 转换—计算变量
数据库产生两个新变量fac1和2
Z1=FAC1_1×sqrt(4.196);Z2=FAC2_1×sqrt(0.667),于是数据库中,生成Z1和Z2主成分
9. 主成分回归:利用标准化Zy为因变量,主成分Z1和Z2为自变量,看p值,共线性诊断
。写出方程

由于手动计算较多,因此可以借用其他软件实现

主成分分析


主成分评价是对多个度量衡单位不同资料进行综合评价的方法。
(1)先主成分预分析,看结果如何,决定提取几个主成分因子。
(2)分析→降维→因子分析
(3)描述:勾选系数与KMO。
(4)提取:默认特征值>1。
(5)得分:勾选“保存为变量”,采用回归法。
结果解读
(1)KMO=0.763,P=0.000,可以进行主成分分析。
(2)提取3个主成分,共提取93.403%信息,较好。
(3)未旋转因子得分
(4)计算主成分,采用第二种方法
主成分1:Z1=FAC1_1×sqrt(6.271)
主成分2:Z2=FAC2_1×sqrt(2.707)
主成分3:Z3=FAC3_1×sqrt(1.296)
(5)计算综合排名指数(K),利
用SPSS-compute功能,按照公式:
K=(6.271×Z1+2.707×Z2+1.296×Z3)/(6.271+2.707+1.296)
就是指相关系数z1+……相关系数zn÷相关系数相加
该公式其实就是将各主成分的特征值作为权重,然后求加权均值。
对数据库的K值进行顺序排列,如果K值得分有负数,不太好看,可以再进行T分数转化。
(6)T分数转化
计算新的排名K1=60+10×K,让软件利用K产生一组0~100分的数据,其中的60与10需要大家调整,最高分一般不可超过100分哦。(看情况而定)

因子分析

spss只能进行探索性因子分析,就是事先不知道有多少个潜在的公共因子。确定性因子分析需要用别的软件实现
找出变量间隐藏的公共因素,比如七门科目,主成分分析是找出最能代表成绩的,因子分析是找出背后的语言理解,几何思维,逻辑能力这种潜在的公共因素
因子分析是在主成分分析的基础上进行空间旋转,最常用的旋转方法为最大方差法。大家重复上述操作,并点击“旋转”。选择“最大方差法”,并勾选“载荷图”。
(1)因子载荷一般小于0.3称为低载荷,大于0.4称为高载荷。
(2)因子分析是在主成分分析基础上进行进一步旋转,旋转的目的是让提取出的因子更具有专业上的可解释性。

你可能感兴趣的:(SPSS,数据分析)