因子分析——SPSS实例分析

【续上篇主成分分析】

因子分析常用于通过可观测变量推断出其背后的公共因子(也称为隐变量),样本在公共因子上的取值变化影响其在可观测变量上的取值,因为一般公共因子的个数小于可观测变量的数目,所以因子分析也可以用来降维。

对于下面三张表在主成分分析中已有详细的介绍,其中第三张表是因子载荷阵,是用标准化的主成分(公共因子)近似表示标准化原始变量的系数矩阵。如果用F1、F2表示各公共因子,以X1为例,可得:

表1 公因子方差

初始

提取

VAR1

1.000

.836

VAR2

1.000

.842

VAR3

1.000

.856

VAR4

1.000

.807

VAR5

1.000

.990

VAR6

1.000

.989

VAR7

1.000

.765

VAR8

1.000

.841

VAR9

1.000

.945

VAR10

1.000

.622

VAR11

1.000

.739

VAR12

1.000

.904

提取方法:主成分分析法。

表2  方差分析表

成分

初始特征值

提取载荷平方和

旋转载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

总计

1

4.031

33.591

33.591

4.031

33.591

33.591

3.957

2

3.930

32.746

66.337

3.930

32.746

66.337

3.914

3

2.175

18.122

84.459

2.175

18.122

84.459

2.264

4

.973

8.108

92.567

5

.513

4.278

96.845

6

.210

1.749

98.594

7

.104

.864

99.458

8

.041

.338

99.795

9

.024

.202

99.998

10

.000

.002

100.000

11

5.402E-7

4.501E-6

100.000

12

-1.167E-16

-9.728E-16

100.000

表3 成分矩阵a

成分

1

2

3

VAR1

-.102

-.030

.908

VAR2

.836

.084

.368

VAR3

.782

.353

.345

VAR4

-.423

-.070

.790

VAR5

-.032

-.991

-.086

VAR6

.048

.992

.055

VAR7

-.632

.604

-.036

VAR8

-.550

-.732

.060

VAR9

.889

.390

-.040

VAR10

-.132

.433

-.646

VAR11

-.648

.547

.141

VAR12

.773

-.536

-.135

提取方法:主成分分析法。a

a. 提取了 3 个成分。

表4 成分得分系数矩阵

成分

1

2

3

VAR1

-.025

-.008

.418

VAR2

.208

.021

.169

VAR3

.194

.090

.159

VAR4

-.105

-.018

.363

VAR5

-.008

-.252

-.040

VAR6

.012

.252

.025

VAR7

-.157

.154

-.016

VAR8

-.136

-.186

.028

VAR9

.221

.099

-.018

VAR10

-.033

.110

-.297

VAR11

-.161

.139

.065

VAR12

.192

-.136

-.062

提取方法:主成分分析法。

表4是因子得分系数矩阵,是用标准化原始变量表示标准化主成分(公共因子)的系数矩阵。由该得分系数矩阵可得两个公共因子关于标准化原始变量的线性表达式分别为:

此外,由主成分法求解公共因子时,因子得分系数与因子载荷之间存在密切联系。如表中因子得分系数矩阵中的第一个元素为-0.025,它等于因子载荷阵的第一个元素-0.102除以第一主成分的方差4.031。之所以是除以方差而非标准差,是因为公共因子是标准化的主成分。同理,有-0.008=-0.03/3.93。由于用主成分法做因子分析中计算因子载荷阵和主成分分析中计算主成分的系数矩阵的方法本质上是一致的,两者的结果可以互相推导得到。因此,有些研究者也使用采用主成分法做因子分析得到的结果进行主成分分析。

在进行因子分析之前,先了解变量之间的相关性,以判断是否适合对数据做因子分析。对此,进入“因子分析”对话框后,点击“描述”按钮,打开相应的对话框,在“统计”框架中可以选择“单变量”,将会输出每个变量的均值、方差等统计量的值。在下面“相关矩阵”框架中,选中“系数”选项以输出原始变量的相关阵,选中“显著水平”以输出原始变量各相关系数的显著性水平,选中 KMO and Bartlett ' s test of sphericity 以进行 KMO 检验和 Bartlett 球形检验。点击“确定”运行,可得到关于自变量相关性的检验结果,见输出结果。

其中, KMO 检验用于检查变量间的相关性和偏相关性, KMO 统计量的取值在0~1之间。 KMO 统计量的取值越接近于1,表明变量间的相关性越强,偏相关性越弱,因子分析的效果越好。实际分析中,当 KMO 统计量在0.7以上时,认为做因子分析的效果比较好;当 KMO 统计量在0.5以下时,不适合做因子分析,应考虑重新选取变量或者采用其他分析方法。如果变量间相互独立,则无法从中提取公因子,也就无法应用因子分析法。 Bartlett 球形检验的原假是相关阵为单位阵。如果拒绝原假设,则说明各变量间具有相关性,因子分析有效;如果不拒绝原假设,则说明变量间相互独立,不适合做因子分析。

表5 相关性矩阵a

VAR1

VAR2

VAR3

VAR4

VAR5

VAR6

VAR7

VAR8

VAR9

VAR10

VAR11

VAR12

VAR1

1

0.244

0.18

0.807

-0.023

-0.009

0.023

0.107

-0.118

-0.359

0.097

-0.155

VAR2

0.244

1

0.861

-0.195

-0.138

0.145

-0.548

-0.39

0.686

-0.294

-0.35

0.461

VAR3

0.18

0.861

1

-0.185

-0.402

0.408

-0.367

-0.557

0.751

-0.195

-0.167

0.281

VAR4

0.807

-0.195

-0.185

1

0.027

-0.067

0.318

0.179

-0.351

-0.403

0.176

-0.277

VAR5

-0.023

-0.138

-0.402

0.027

1

-0.999

-0.546

0.726

-0.416

-0.331

-0.566

0.523

VAR6

-0.009

0.145

0.408

-0.067

-0.999

1

0.532

-0.731

0.429

0.346

0.558

-0.511

VAR7

0.023

-0.548

-0.367

0.318

-0.546

0.532

1

-0.253

-0.299

0.357

0.523

-0.728

VAR8

0.107

-0.39

-0.557

0.179

0.726

-0.731

-0.253

1

-0.847

-0.292

0.137

-0.15

VAR9

-0.118

0.686

0.751

-0.351

-0.416

0.429

-0.299

-0.847

1

0.092

-0.422

0.548

VAR10

-0.359

-0.294

-0.195

-0.403

-0.331

0.346

0.357

-0.292

0.092

1

0.131

-0.217

VAR11

0.097

-0.35

-0.167

0.176

-0.566

0.558

0.523

0.137

-0.422

0.131

1

-0.908

VAR12

-0.155

0.461

0.281

-0.277

0.523

-0.511

-0.728

-0.15

0.548

-0.217

-0.908

1

a. 此矩阵不是正定矩阵。

由上面第一张表的结果可以看到,12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。另外,得到初始载荷矩阵与公共因子后,为了解释方便,往往需要对因子进行旋转,因此在上述设置的基础上,在主对话框中点击右侧的“旋转”按钮,在“方法”框架中可以看到 SPSS 给出了多种旋转方法。可以选择的方法有 Varimax (方差最大正交旋转)、 Direct Oblimin (直接斜交旋转)、 Quartimax (四次方最大正交旋转)、 Equamax (等量最大正交旋转)及 Promax (最优斜交旋转)。系统默认为不进行旋转,此处选择方差最大正交旋转,“显示”框架中“旋转结果”选项处于活动状态,选中该选项以输出旋转结果。点击“确定”运行,得到输出结果。

表6 旋转后的成分矩阵a

成分

1

2

3

VAR1

.101

.095

.904

VAR2

-.405

.789

.234

VAR3

-.159

.895

.171

VAR4

.251

-.207

.837

VAR5

-.780

-.610

.100

VAR6

.768

.617

-.133

VAR7

.857

-.163

-.063

VAR8

-.254

-.841

.263

VAR9

-.221

.919

-.225

VAR10

.380

.006

-.691

VAR11

.834

-.170

.122

VAR12

-.899

.277

-.134

提取方法:主成分分析法。

 旋转方法:凯撒正态化最大方差法。a

a. 旋转在 5 次迭代后已收敛。

表7 成分转换矩阵

成分

1

2

3

1

-.596

.793

-.130

2

.800

.572

-.182

3

.070

.212

.975

提取方法:主成分分析法。  

 旋转方法:凯撒正态化最大方差法。

表8 成分得分系数矩阵

成分

1

2

3

VAR1

.038

.064

.412

VAR2

-.095

.213

.134

VAR3

-.033

.239

.113

VAR4

.074

-.016

.371

VAR5

-.200

-.159

.008

VAR6

.196

.159

-.023

VAR7

.215

-.040

-.024

VAR8

-.066

-.209

.079

VAR9

-.053

.228

-.065

VAR10

.087

-.026

-.305

VAR11

.212

-.034

.059

VAR12

-.228

.061

-.061

提取方法:主成分分析法。

旋转方法:凯撒正态化最大方差法。

因子分析——SPSS实例分析_第1张图片

 由输出结果可以看到,旋转后公共因子解释原始数据的能力没有提高,但因子载荷矩阵及因子得分系数矩阵都发生了变化,因子载荷矩阵中的元素更倾向于0。有时为了使公共因子的实际意义更容易解释,往往需要放弃公共因子之间互不相关的约束而进行斜交旋转,最常用的斜交旋转方法为 Promax 方法,可得到输出结果。

模式矩阵a

成分

1

2

3

VAR1

.160

.170

.930

VAR2

-.401

.829

.278

VAR3

-.158

.923

.233

VAR4

.311

-.146

.847

VAR5

-.770

-.583

.019

VAR6

.757

.588

-.052

VAR7

.860

-.197

-.035

VAR8

-.228

-.819

.192

VAR9

-.247

.916

-.170

VAR10

.336

-.065

-.683

VAR11

.848

-.187

.151

VAR12

-.916

.297

-.159

提取方法:主成分分析法。

旋转方法:凯撒正态化最优斜交法。

a. 旋转在 5 次迭代后已收敛。

结构矩阵

成分

1

2

3

VAR1

.059

.029

.884

VAR2

-.389

.763

.192

VAR3

-.136

.877

.104

VAR4

.202

-.265

.833

VAR5

-.804

-.628

.204

VAR6

.795

.637

-.237

VAR7

.853

-.144

-.106

VAR8

-.296

-.863

.351

VAR9

-.177

.930

-.288

VAR10

.414

.064

-.713

VAR11

.820

-.166

.080

VAR12

-.881

.272

-.097

提取方法:主成分分析法。

旋转方法:凯撒正态化最优斜交法。

成分相关性矩阵

成分

1

2

3

1

1.000

.054

-.119

2

.054

1.000

-.161

3

-.119

-.161

1.000

提取方法:主成分分析法。

旋转方法:凯撒正态化最优斜交法。

可以看到与正交旋转不同,斜交旋转的输出结果中没有Rotated Component Matrix,而代之以 Pattern Matrix 和 Structure Matrix 。这里,Pattern Matrix 即因于载荷矩阵, Structure Matrix 为公共因子与标准化原始变量的相关阵。也就是说,在斜交旋转中,因子载荷系数不再等于公共因子与标准化原始变量的相关系数。

由 Pattern Matrix 可知,变量X5、X6、X7X11、X12在第一公共因子上的载荷均较大,因此第一公共因子主要反映第二、三产业就业结构、产业劳动生产率变量X2、X3、X8、X9在第二公共因子上的载荷较大,则第二公共因子主要反映第二、三从业人员、产业产出结构;变量X1、X4、X10在第公共因子上的载荷较大,则第公共因子主要反映第一产业相关情况。总之,三个公共因子均较未旋转前更容易解释。

你可能感兴趣的:(spss,机器学习,算法,人工智能,数学建模,笔记)