主成分分析法_SPSS教程(一)|主成分分析法

主成分分析法_SPSS教程(一)|主成分分析法_第1张图片

本期编辑 | 小谦

本期校对 | 听雨

 文章来源 |医咖会

鸣谢作者

1、问题与数据

某公司经理拟招聘一名员工,要求其具有较高的工作积极性、自主性、热情和责任感。为此,该经理专门设计了一个测试问卷,配有25项相关问题,拟从315位应聘者中寻找出最合适的候选人。

在这25项相关问题中,Qu3-Qu8、Qu12、Qu13测量的是工作积极性,Qu2、Qu14-Qu19测量的是工作自主性,Qu20-Qu25测量的是工作热情,Qu1、Qu9-Qu11测量的是工作责任感,每一个问题都有非常同意“Agree”、同意 “Agree Some”、不确定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五个等级。

该经理想根据这25项问题判断应聘者在这四个方面的能力,现收集了应聘者的问卷信息,经汇总整理后部分数据如下:

主成分分析法_SPSS教程(一)|主成分分析法_第2张图片

2、对问题的分析

研究者拟将多个变量归纳为某几项信息进行分析,即降低数据结果的维度。针对这种情况,我们可以进行主成分提取,但需要先满足2项假设:

假设1:观测变量是连续变量或有序分类变量,如本研究中的测量变量都是有序分类变量。

假设2:变量之间存在线性相关关系。

经分析,本研究数据符合假设1,那么应该如何检验假设2,并进行主成分提取呢?

3、SPSS操作

(1) 在主页面点击Analyze→Dimension Reduction →Factor

主成分分析法_SPSS教程(一)|主成分分析法_第3张图片

弹出下图

主成分分析法_SPSS教程(一)|主成分分析法_第4张图片

(2) 将变量Qu1-Qu25放入Variables栏

主成分分析法_SPSS教程(一)|主成分分析法_第5张图片

(3) 点击Descriptive弹出下图

主成分分析法_SPSS教程(一)|主成分分析法_第6张图片

(4) 点选Statistics栏的Initial solution选项,并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image选项

主成分分析法_SPSS教程(一)|主成分分析法_第7张图片

(5) 点击Continue→Extraction

主成分分析法_SPSS教程(一)|主成分分析法_第8张图片

(6) 点击Display栏中的Scree plot选项

主成分分析法_SPSS教程(一)|主成分分析法_第9张图片

(7) 点击Continue→Rotation

主成分分析法_SPSS教程(一)|主成分分析法_第10张图片

(8) 点选Method栏的Varimax选项,并点选Display栏的Rotated solution和Loading plot(s)选项

主成分分析法_SPSS教程(一)|主成分分析法_第11张图片

(9) 点击Continue→Scores

主成分分析法_SPSS教程(一)|主成分分析法_第12张图片

(10) 点击Save as variables,激活Method栏后点击Regression选项

主成分分析法_SPSS教程(一)|主成分分析法_第13张图片

(11) 点击Continue→Options

主成分分析法_SPSS教程(一)|主成分分析法_第14张图片

(12) 点击 Sorted by size和Suppress small coefficients选项,在Absolute value below栏内输入“.3"

主成分分析法_SPSS教程(一)|主成分分析法_第15张图片

(13) 点击Continue→OK

假设检验

假设2:线性相关关系

经上述操作,SPSS输出相关矩阵表如下:

主成分分析法_SPSS教程(一)|主成分分析法_第16张图片

在变量比较多的时候,各变量之间的相关矩阵表会非常大。如在本研究中,相关矩阵是一个26*26的表格,为了在一个视野中展示数据,我们只能列出部分结果。

该表主要用于判断各变量之间的线性相关关系,从而决定变量的取舍,即如果某一个变量与同一分组中其他变量之间的关联性不强,我们就认为该变量与其他变量测量的内容不同,在主成分提取中不应该纳入该变量。

一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。从本研究的结果来看,在分别对应聘者工作积极性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作热情(Q20-25)和工作责任感(Q1,Q9-11)的测量中,每组变量之间的相关系数均大于0.3,说明各组变量之间具有线性相关关系,提示满足假设2。

此外,检验主成分分析数据结构的方法还有以下三种:用Kaiser-Meyer-Olkin (KMO)检验对数据的总体分析,KMO检验对各变量的单独分析以及Bartlett's 检验 (Bartlett's test of sphericity)。接下来,我们将对这三种方法进行逐一介绍。

KMO检验对数据结构的总体分析

KMO检验主要用于主成分提取的数据情况。一般来说,KMO检验系数分布在0到1之间,如果系数值大于0.6,则认为样本符合数据结构合理的要求。但既往学者普遍认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数对应关系如下:

主成分分析法_SPSS教程(一)|主成分分析法_第17张图片

SPSS输出本研究结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第18张图片

即本研究的KMO检验系数为0.833,根据系数对应关系表,我们认为本研究数据结构很好(meritorious),具有相关关系,满足假设2。

KMO检验对各变量的单独分析

SPSS输出各变量的KMO检验结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第19张图片

整理为:

主成分分析法_SPSS教程(一)|主成分分析法_第20张图片

同上述对总体KMO检验系数的介绍,KMO检验对单个变量的分析结果也在0到1之间分布,如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好。在本研究中,任一变量的KMO检验结果均大于0.7,即各变量结果一般,但仍满足假设2。

Bartlett's检验

Bartlett's检验的零假设是研究数据之间的相关矩阵是一个完美矩阵,即所有对角线上的系数为1,非对角线上的系数均为0。

在这种完美矩阵的情况下,各变量之间没有相关关系,即不能将多个变量简化为少数的成分,没有进行主成分提取的必要。因此,我们希望拒绝Bartlett's检验的零假设,SPSS输出结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第21张图片

在本研究中,Bartlett's检验的P值小于0.001,拒绝零假设,即认为研究数据可以进行主成分提取,满足假设2。

4 、结果解释

对主成分结果的分析主要从公因子方差(communalities)、提取主成分和强制提取主成分三个方面进行。接下来,我们将向大家进行逐一介绍。

4.1 公因子方差结果

SPSS输出公因子方差结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第22张图片

在这个阶段,研究中有多少个变量数据结果就会输出多少个成分。如在本研究中共有25个变量,就会对应产生25个成分。

在上表中,“Initial”栏提示的当所有成分都纳入时,每个变量变异被解释的程度为1,即100%被解释。这是很好理解的,因为在这一阶段,我们没有剔除任何信息,数据中的变异都可以被解释。

而“Extraction”栏提示的是当我们只保留选中的成分时,变量变异被解释的程度。这也是很好理解的,因为我们只保留了部分成分,所有变量变异被解释的程度会降低。

这个表只是帮助大家对主成分提取结果有一个初步的认识,接下来我们要进入主要的分析阶段。

4.2 提取主成分

正如上文所述,研究中有多少个变量,主成分提取就会产生多少个主成分。而我们主要的目的就是通过选取主成分,对数据进行降维,但同时也要注意尽可能多地包含对数据变异的解释。

一般来说,结果输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减。SPSS输出结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第23张图片

上表标注部分是对研究中所有主成分的介绍。本研究中共有25个变量,那总特征值(eigenvalues of variance)就是25,即每个变量自身的特征值为1。

Total栏提示的是各主成分对数据变异的解释程度。以第一主成分为例,其特征值为6.730,占总体变异的6.730/25×100 = 26.919% (% of Variance栏)。同理,第二主成分的特征值为3.342,占总体变异的13.369%,以此类推。那么,我们应该如何提取主成分呢?

目前主要有4种方法可以帮助大家判断提取主成分的数量,分别是:(1) 特征值大于1,(2) 解释数据变异的比例,(3) 陡坡图检验,和 (4) 解释能力判断,我们将逐一向大家介绍。

(1) 特征值大于1

一般来说,如果某一项主成分的特征值小于1,那么我们就认为该主成分对数据变异的解释程度比单个变量小,应该剔除。本研究结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第24张图片

从上表可知,第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即应该保留前五位的主成分,剔除剩余部分。

这种方法的主要问题在于,如果研究结果中某些主成分的特征值十分接近1,那么该方法对提取主成分数量的提示作用将变得不明显。比如,某研究第五主成分的特征值为1.002,而第六主成分的特征值为0.998,虽然该方法仍建议保留前五位主成分,但是我们会对是否也应该保留第六主成分产生质疑,需要其他方法辅助判断。

(2) 解释数据变异的比例

在根据主成分解释数据变异比例判断提取主成分的数量时,我们主要依据单个主成分解释数据变异的比例和前几位主成分解释数据变异的总比例两个指标。SPSS输出结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第25张图片

首先,既往研究认为提取的主成分至少应该解释5-10%的数据变异。根据这一指标,我们认为应该提取前四位主成分(第四主成分解释8.070%的数据变异,第五主成分解释4.196%的数据变异)。

而同时,既往学者也认为提取的主成分应累计解释60-70%的数据变异。相应的根据这一指标,我们认为应该提取前五位主成分(前四位主成分累计解释59.949%的数据变异,前五位主成分累计解释64.145%的数据变异)。

这种判断方法的不足在于比较主观,我们既可以提取60%,也可以提取70%,而这10%的比例差异往往导致提取主成分数量的不同。

(3) 陡坡图(scree plot)检验

SPSS输出陡坡图如下:

主成分分析法_SPSS教程(一)|主成分分析法_第26张图片

陡坡图是根据各主成分对数据变异的解释程度绘制的图。图上,每一个主成分为一个点,我们通过“陡坡趋于平缓”的位置判断提取主成分的数量。在本研究中,第五主成分之后的数据趋于平缓,因此我们认为可以提取前四位主成分。

(4) 解释能力判断

大家都知道,我们进行主成分提取的目的是对数据结构进行降维,但同时我们也要注意的是提取后的主成分应具有一定的意义,即对研究内容具有解释能力。各主成分对相应变量的解释能力(相关系数小于0.3的数据已剔除),如下表:

主成分分析法_SPSS教程(一)|主成分分析法_第27张图片

从上表可见,当我们提取前五位主成分时,数据结构仍比较复杂,存在两个主成分同时解释一个变量的情况。比如,第一主成分和第五主成分同时解释Qu18变量;再如,第二主成分和第五主成分同时解释Qu8变量。

在这种情况下,主成分提取的结果比较难解释。比如,我们无法区分变量Qu18的信息是由第一主成分反映,还是由第二主成分反映。因此,我们比较倾向于提取未对任何变量进行重复解释的主成分,即提取前四位主成分。

大家应该已经注意到,不同方法提示的主成分提取数量并不完全相同,这就要求我们根据研究经验和目的做出自己的取舍。简而言之,提取主成分的判断是一个比较主观的过程,并没有最优的判断方法,各方法的优缺点都是相对而言的。

针对本研究,我们认为应该提取前四位主成分,这一结果与陡坡图检验和解释能力判断的提示相同,但与特征值大于1和解释数据变异比例的提示不同,是研究者根据实际情况进行的综合判断。

4.3 强制提取主成分

因为SPSS自动输出的主成分提取结果主要是根据特征值大于1这项指标判断的,并不一定符合我们的实际需要,所以我们在实际工作中往往要进行强制性提取主成分的工作,其SPSS操作如下:

(1) 在主页面点击Analyze →Dimension Reduction →Factor

主成分分析法_SPSS教程(一)|主成分分析法_第28张图片

弹出下图

主成分分析法_SPSS教程(一)|主成分分析法_第29张图片

(2)点击Extraction

主成分分析法_SPSS教程(一)|主成分分析法_第30张图片

(3)点击Extract栏内的Fixed number of factors选项,并在Factors to extract栏内填入4

主成分分析法_SPSS教程(一)|主成分分析法_第31张图片

(4)点击Continue→OK

经过上述SPSS操作,我们得到的结构与前文提到的基本相同,只不过主成分提取数量固定为4,而不是之前SPSS自动输出的前五位主成分。Total Variance Explained表输出结果如下:

主成分分析法_SPSS教程(一)|主成分分析法_第32张图片

该表提示,前四位主成分对数据变异的累计解释比例为59.9%,与之前的结果相同。可见我们提取主成分后,只纳入了原数据信息的59.9%,不到60%,但提取的每一项主成分对数据变异的解释比例都大于5%。

Rotated Component Matrix表(剔除相关系数小于0.3的数据)输出提取后各主成分对变量的解释情况如下:

主成分分析法_SPSS教程(一)|主成分分析法_第33张图片

研究者在设计问卷时,拟使用Qu3-Qu8、Qu12、Qu13测量工作积极性,Qu2、Qu14-Qu19测量工作自主性,Qu20-Qu25测量工作热情,Qu1、Qu9-Qu11测量工作责任感。

从上表可知,提取前四位后各主成分解释的变量信息与该分类基本相同。对应地,第一主成分主要反映工作积极性,第二主成分主要反映工作自主性,第三主成分主要反映工作热情,而第三主成分主要反映工作责任感。可见,提取前四位主成分具有较好的结果解释能力。

当然,为了更好地汇报结果,我们需要将相关系数小于0.3的数据补齐,SPSS操作方法是在Factor Analysis界面内点击Coefficient Display Format栏内的Sorted by size选项,如下:

主成分分析法_SPSS教程(一)|主成分分析法_第34张图片

重新运行主成分分析后,SPSS输出下表:

主成分分析法_SPSS教程(一)|主成分分析法_第35张图片

该表包含了提取后各主成分与变量之间的所有相关系数,但是这样并不容易观察到主成分与变量之间的关系。我们进一步将大于0.3的相关系数加粗,便于大家理解,如下所示:

主成分分析法_SPSS教程(一)|主成分分析法_第36张图片

5、撰写结论

本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.833,单个变量的KMO检验系数均大于0.7,Bartlett's检验结果为P<0.001),提示研究数据可以进行主成分提取。

主成分提取结果提示,本研究中前五位主成分的特征值大于1,分别解释26.9%、13.4%、8.1%和4.2%的总数据变异。但陡坡图分析提示应提取前四位主成分(图1),同时解释能力判断也提示提取前4位主成分比较符合研究实际需要。

主成分分析法_SPSS教程(一)|主成分分析法_第37张图片

Figure 1 Scree Plot

因此,本研究最终提取前四位主成分。提取后的主成分累计解释59.9%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感,详见表1。

主成分分析法_SPSS教程(一)|主成分分析法_第38张图片

Table 1. Rotated Structure Matrix for PCA with Varimax Rotation of a Four Component Questionnaire

后记:根据主成分提取的结果,研究者可以计算相应的主成分得分或者直接将提取后的主成分作为新生成的变量进行数据分析。在保留大部分原始信息的情况下,主成分提取主要用于降低数据维度,简化数据结构,帮助研究者更好地解释研究内容和结果。

学术拓荒者说明

本文开通了打赏功能,如果你愿意打赏,那是我的荣幸,也是你的荣耀——你是知识付费时代的弄潮儿,你知道怎样用最好的方式来表达对于知识生产的尊重。所有赞赏全部会分给义务提供原创推送作品、负责微信运营的同学和老师们,谢谢大家!

主成分分析法_SPSS教程(一)|主成分分析法_第39张图片 主成分分析法_SPSS教程(一)|主成分分析法_第40张图片 主成分分析法_SPSS教程(一)|主成分分析法_第41张图片

·END·

主成分分析法_SPSS教程(一)|主成分分析法_第42张图片

号主:兰博士,80后,南师大教育技术学博士,教育学博士后,河大副教授,硕导,“以学术为志业不断拓荒,学术拓荒者!”,力求做一位教育研究的“拓荒者”、一位教育理论的“建构者”、一位教育实践的“反思者”、一位教育梦想的“追梦者”!中国最具学术影响力学术交流社群——“中国学术圈(QQ群:371267208)”和“学术拓荒者(微信公众号:zgxsq2017)”的创始人,技术促进学习创新研究院负责人,酷爱(CoI)学习创新研究团队领衔人。目前被聘为多本国内外SSCI、CSSCI期刊匿名审稿人。研究方向主攻信息技术教育应用。研究兴趣范围涉及教育技术基本理论、教育技术学研究方法、网络教育与远程教育、网络探究学习社区、技术促进学习、外语教育技术、信息化教学设计、教师信息化能力建设与教师专业发展、数字化教学资源建设与开发、知识可视化表征、教育技术国际比较、职业教育信息化、学术论文写作等领域。先后主持和参研国家社科基金教育学重点招标项目、教育部人文社会科学研究、河南省教育科学“十三五”规划等10多项。在《教育研究》《高等教育研究》《电化教育研究》等CSSCI权威期刊发表学术论文40余篇,多篇文章被人大复印报刊资料、高等学校文科学术文摘、中国社会科学网等全文转载。个人微信号:lgs767852569,邮箱:[email protected]。 

主成分分析法_SPSS教程(一)|主成分分析法_第43张图片 主成分分析法_SPSS教程(一)|主成分分析法_第44张图片

产权及免责声明

本公众号欢迎大家转载原创文章,不过如果转载本公众号原创文章,即表示同意以后可以相互转载。如果要转载本公众号转载的文章,请联系原公众号或原作者。另外,本公号转载、编辑的文章,编辑后增加的插图均来自于互联网,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时审核处理。

特 大 好 消 息 

应全国各地广大学友和老师的强烈要求,

兰博士特将学术交流QQ群分别进行了升级:

中国学术圈一群升级为2000人群:

添加此群请搜索QQ号371267208;

中国学术圈二群升级为2000人群:

添加此群请搜索QQ号211038239;

中国学术圈三群升级为1000人群:

添加此群请搜索QQ号70434093;

中国学术圈四群升级为500人群:

添加此群请搜索QQ号755540863;

中国学术圈五群升级为500人群:

添加此群请搜索QQ号631696097;

2018社科实证研修班一群升级为500人群:

添加此群请搜索QQ号719633349;

2018社科实证研修班二群升级为500人群:

添加此群请搜索QQ号766591245;

你可能感兴趣的:(主成分分析法)