主成分分析——SPSS实例分析

主成分分析是用原始变量的线性组合来表示主成分,且主成分彼此之间互不相关,且能反映出原始数据的绝大部分信息。 一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。

SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此,在 SPSS 数据表中录人以上数据后,依次点击“分析-降维-因子”进入“因子分析”对话框,然后将12个变量全部选入“变量”框中。

主成分分析——SPSS实例分析_第1张图片

 点击右侧的“描述”按钮,在弹出的对话框中,在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框,其中“方法”是“主成分”,“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分,默认是从相关阵出发。本例中各变量的量纲差别较大,选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子(此处为主成分)个数,但是如果选择从协方差阵出发,则会提取大于特征根均值的指定倍数(默认为1)的特征根。点击“确定”运行,即可得到输出结果。

表1 相关性矩阵a

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X1

1

0.244

0.18

0.807

-0.023

-0.009

0.023

0.107

-0.118

-0.359

0.097

-0.155

X2

0.244

1

0.861

-0.195

-0.138

0.145

-0.548

-0.39

0.686

-0.294

-0.35

0.461

X3

0.18

0.861

1

-0.185

-0.402

0.408

-0.367

-0.557

0.751

-0.195

-0.167

0.281

X4

0.807

-0.195

-0.185

1

0.027

-0.067

0.318

0.179

-0.351

-0.403

0.176

-0.277

X5

-0.023

-0.138

-0.402

0.027

1

-0.999

-0.546

0.726

-0.416

-0.331

-0.566

0.523

X6

-0.009

0.145

0.408

-0.067

-0.999

1

0.532

-0.731

0.429

0.346

0.558

-0.511

X7

0.023

-0.548

-0.367

0.318

-0.546

0.532

1

-0.253

-0.299

0.357

0.523

-0.728

X8

0.107

-0.39

-0.557

0.179

0.726

-0.731

-0.253

1

-0.847

-0.292

0.137

-0.15

X9

-0.118

0.686

0.751

-0.351

-0.416

0.429

-0.299

-0.847

1

0.092

-0.422

0.548

X10

-0.359

-0.294

-0.195

-0.403

-0.331

0.346

0.357

-0.292

0.092

1

0.131

-0.217

X11

0.097

-0.35

-0.167

0.176

-0.566

0.558

0.523

0.137

-0.422

0.131

1

-0.908

X12

-0.155

0.461

0.281

-0.277

0.523

-0.511

-0.728

-0.15

0.548

-0.217

-0.908

1

a. 此矩阵不是正定矩阵。

输出结果中,表1是样本相关阵,可以看到12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。

表2 总方差解释

成分

初始特征值

提取载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

1

4.031

33.591

33.591

4.031

33.591

33.591

2

3.930

32.746

66.337

3.930

32.746

66.337

3

2.175

18.122

84.459

2.175

18.122

84.459

4

.973

8.108

92.567

5

.513

4.278

96.845

6

.210

1.749

98.594

7

.104

.864

99.458

8

.041

.338

99.795

9

.024

.202

99.998

10

.000

.002

100.000

11

5.402E-7

4.501E-6

100.000

12

-1.167E-16

-9.728E-16

100.000

提取方法:主成分分析法。

表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根,可看到提取了3个主成分,其方差贡献率为84.459%,说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量,极大地起到了降维的作用。【注:lamda10、11、12接近于0,意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在不可忽视的重叠信息】

主成分分析——SPSS实例分析_第2张图片

 从碎石图中也可以看出,前三个特征根较大,因此选取三个特征根是合适的。

表3 成分矩阵a

成分

1

2

3

VAR1

-.102

-.030

.908

VAR2

.836

.084

.368

VAR3

.782

.353

.345

VAR4

-.423

-.070

.790

VAR5

-.032

-.991

-.086

VAR6

.048

.992

.055

VAR7

-.632

.604

-.036

VAR8

-.550

-.732

.060

VAR9

.889

.390

-.040

VAR10

-.132

.433

-.646

VAR11

-.648

.547

.141

VAR12

.773

-.536

-.135

提取方法:主成分分析法。a

a. 提取了 3 个成分。

表3是因子载荷阵,需要将其每个元素除以响应主成分的特征根的平方根,才可以得到第一主成分关于标准化的原始变量的变换系数,如表4所示。

表4 成分得分系数矩阵

成分

1

2

3

VAR1

-.025

-.008

.418

VAR2

.208

.021

.169

VAR3

.208

.090

.159

VAR4

-.105

-.018

.363

VAR5

-.008

-.252

-.040

VAR6

.012

.252

.025

VAR7

-.157

.154

-.016

VAR8

-.136

-.186

.028

VAR9

.221

.099

-.018

VAR10

-.033

.110

-.297

VAR11

-.161

.139

.065

VAR12

.192

-.136

-.062

由此可得,主成分Y关于各标准化变量的线性组合为:

主成分分析——SPSS实例分析_第3张图片

式中各变量的系数的大小可以表示其重要性。

本例中有12个指标,通过主成分计算后,选择了3个主成分。其中,第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大,因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量,可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率,大致反映了产业结构合理化情况;同理,第二主成分可看成X5、X6、X8的综合变量,可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构,大致反映了产业结构升级化情况;第三主成分可看成X1、X4、X10的综合变量,可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率,大致反映了产业结构合理化情况。

主成分分析——SPSS实例分析_第4张图片

 通常为了分析各样品在主成分上所反映的经济意义方面的情况,还需将原始数据代入主成分表达式计算出各样品的主成分得分,根据各样品的主成分得分就可以对样品进行大致分类或者排序。

表5 主成分1的样品排序

排序

地区

Y1

排序

地区

Y1

1

北京市

180.5150607

13

临汾市

10.46116696

2

天津市

64.58425815

14

阳泉市

9.58268787

3

太原市

28.6908458

15

运城市

9.576200993

4

石家庄市

27.51126238

16

朔州市

9.403504998

5

保定市

20.44835652

17

晋中市

9.333657238

6

唐山市

16.13782061

18

晋城市

8.618180294

7

邯郸市

14.34404851

19

邢台市

8.55713213

8

大同市

14.18527824

20

秦皇岛市

8.001142876

9

张家口市

12.49250853

21

承德市

7.456756398

10

沧州市

12.13317336

22

忻州市

7.275499933

11

长治市

10.97995128

23

吕梁市

5.205538483

12

廊坊市

10.5379542

24

衡水市

4.263760211

表6 主成分2的样品排序

排序

地区

Y2

排序

地区

Y2

1

北京市

68.95036761

13

承德市

5.738359679

2

廊坊市

21.7017499

14

晋中市

5.250730169

3

衡水市

21.32785977

15

邯郸市

5.050358973

4

天津市

18.6740728

16

临汾市

4.428244365

5

石家庄市

17.85848122

17

大同市

3.900698174

6

秦皇岛市

14.01048574

18

忻州市

2.923556626

7

保定市

11.93600734

19

朔州市

0.677891108

8

邢台市

11.26217305

20

唐山市

0.675547677

9

沧州市

10.72374997

21

长治市

-1.095271353

10

运城市

9.121019677

22

阳泉市

-1.189746842

11

太原市

7.647849868

23

吕梁市

-1.534529357

12

张家口市

7.563284738

24

晋城市

-1.951322435

表7 主成分3的样品排序

排序

地区

Y3

排序

地区

Y3

1

北京市

124.0088998

13

吕梁市

-1.403670484

2

天津市

39.57507582

14

保定市

-1.740401389

3

唐山市

12.41857457

15

临汾市

-3.664946889

4

太原市

9.96648314

16

忻州市

-3.96973901

5

长治市

4.219456963

17

石家庄市

-6.378107088

6

晋城市

2.40563238

18

晋中市

-7.704121015

7

阳泉市

2.125268721

19

运城市

-9.152635185

8

邯郸市

2.007346431

20

沧州市

-14.18356557

9

朔州市

1.315259427

21

邢台市

-17.43441436

10

大同市

0.76826382

22

秦皇岛市

-24.86005785

11

张家口市

-0.194855256

23

廊坊市

-43.0706488

12

承德市

-1.191899812

24

衡水市

-45.14251758

注意表中各地区得分中,有许多地区的得分是负数,但并不表明这些地区的指标为负,这里的正负仅表示该地区与平均水平的位置关系。

你可能感兴趣的:(spss,学习,算法,大数据,数据分析,数学建模)