用spss进行主成分分析

此次同样通过一道例题讲解如何运用spss进行对数据的主成分分析

下表是我国2005年第1、2季度各地区城镇居民家庭收支基本情况的统计数据。根据这些数据进行主成分分析,并依据分析结果对地区城镇居民家庭收支情况进行排序和分类。

地区

平均每户人口(人)

平均每户就业人口(人)

平均每一就业者负担人数(人)

平均每人实际可支配收入(元)

平均每人消费性支出(元)

北京

2.9

1.6

1.8

8845.1

6249.3

天津

2.9

1.4

2

6189.1

4549.1

河北

2.9

1.5

1.9

4582.9

3317.3

山西

3

1.5

2

4359.7

3066.8

内蒙

2.9

1.5

1.9

4712.1

3557.8

辽宁

2.9

1.4

2

4501.2

3530.7

吉林

3

1.5

1.9

4293.7

3271.5

黑龙江

2.8

1.3

2.2

3902.3

2858.7

上海

3

1.6

1.9

9656.5

6623.3

江苏

2.9

1.4

2.1

6371.1

4222.1

浙江

2.8

1.4

1.9

8921.2

6127.5

安徽

3

1.6

1.9

4311.6

3121.4

福建

3.1

1.6

1.9

6471.8

4292.3

江西

2.9

1.5

1.9

4369.7

2945.1

山东

2.9

1.7

1.7

5357.7

3517.6

湖南

3

1.5

2

4558.5

3338.1

湖北

2.9

1.4

2.1

5010.7

3616.4

广东

3.3

1.7

1.9

7828.8

5941.7

广西

3

1.5

2

4876.8

3508.5

海南

3.6

1.6

2.3

4323

2975.4

重庆

3.1

1.6

1.9

5283.8

4187.8

四川

2.9

1.4

2

4333.5

3326.7

贵州

3.1

1.4

2.1

4177.4

3066.3

云南

3

1.3

2.2

4619.8

3415.4

西藏

3.4

1.7

2

4668.8

4467.1

陕西

3

1.5

2

4342.7

3186.6

甘肃

2.9

1.5

1.9

4031.8

3113.2

青海

3

1.3

2.3

3971.8

3070.3

宁夏

2.9

1.3

2.2

4078.3

3133.7

新疆

3

1.5

2.1

4018.4

3015.1

主成分分析

操作步骤:


  1. 录入数据:在变量视图将地区变量类型更改为字符串,其他类型为数字,再将题目数据复制粘贴到spss。

  2. 数据标准化:


勾选“将标准化值另存为变量”


最后在数据视图得到新的标准化值数据列。


  1. 因子分析


将分析变量全部移入变量框,在相关性矩阵框中勾选系数和kmo检验


点击提取,方法选择为主成分,勾选碎石图。

最后点击继续和确定。

运行结果与分析:

KMO 和巴特利特检验

KMO 取样适切性量数。

.377

巴特利特球形度检验

近似卡方

149.179

自由度

10

显著性

.000

由KMO 和巴特利特检

由KMO 和巴特利特检验p值小于0.05则表示有显著性,而KMO取样适切性量数。大于0.6比较适合,但其值为0.377所以数据不适合做主成分分析。

相关性矩阵

Zscore(平均每户人口(人))

Zscore(平均每户就业人口(人))

Zscore(平均每一就业者负担人数(人))

Zscore(平均每人实际可支配收入(元))

Zscore(平均每人消费性支出(元))

相关性

Zscore(平均每户人口(人))

1.000

.530

.244

-.051

.039

Zscore(平均每户就业人口(人))

.530

1.000

-.638

.322

.363

Zscore(平均每一就业者负担人数(人))

.244

-.638

1.000

-.437

-.425

Zscore(平均每人实际可支配收入(元))

-.051

.322

-.437

1.000

.969

Zscore(平均每人消费性支出(元))

.039

.363

-.425

.969

1.000

总方差解释

成分

初始特征值

提取载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

1

2.605

52.092

52.092

2.605

52.092

52.092

2

1.390

27.794

79.886

1.390

27.794

79.886

3

.937

18.746

98.631

4

.045

.896

99.528

5

.024

.472

100.000

提取方法:主成分分析法。


显示提取的主成分,SPSS默认提取特征值大于1的主成分,本题提取了两个主成分其特征值分别为2.605和1.390。前两个主成分的贡献率分分别为52.092%和27.794%,累计贡献率不足80%,没有基本保留了原来指标的信息,假如其贡献率超过85%,这样就由原来的5个指标转化为2个新指标,起到了降维的作用。碎石图则展示了每组的特征值可以用于验证图表总方差检验的特征值是否造假。

成分矩阵a

成分

1

2

Zscore(平均每户人口(人))

.116

.933

Zscore(平均每户就业人口(人))

.707

.610

Zscore(平均每一就业者负担人数(人))

-.737

.137

Zscore(平均每人实际可支配收入(元))

.874

-.290

Zscore(平均每人消费性支出(元))

.886

-.209

提取方法:主成分分析法。

a. 提取了 2 个成分。

主成分得分公式为f=w1*x1+w2*x2+…+wn*xn其中wj=为主成分矩阵的值与该成分特征值(2.605和0.390)的开根值,代表权重。每个主成分矩阵的值都要除以该成分特征值的开根值得到主成分公式的系数。


再次输入成分矩阵的系数数据


通过spss转换功能进行计算w1和w2(主成分公式的系数)


最终的到主成分F1和F2的系数w1和w2

所以主成分方程为:

F1=0.072*x1 +0.438*x2-0.457*x3+0.542*x4 +0.549*x5

F2=0.791*x1+0.517*x2 +0.116*x3-0.246*x4-0.177*x5

综合得分为:(其系数来源于两个主成分对总体的贡献度)

F=0.521*F1+0.278*F2


然后通过spss计算F的具体数值

对最后F值进行排序,便可以对对应城市进行排序,最终得到如下城市排名:

城市

综合得分

排名

城市

综合得分

排名

广东

2.08

1

湖南

-0.17

16

上海

1.7

2

陕西

-0.23

17

北京

1.51

3

山西

-0.25

18

西藏

1.33

4

江西

-0.28

19

福建

0.91

5

甘肃

-0.29

20

山东

0.89

6

江苏

-0.34

21

重庆

0.73

7

新疆

-0.46

22

浙江

0.57

8

贵州

-0.59

23

海南

0.51

9

辽宁

-0.6

24

安徽

0.21

10

湖北

-0.65

25

吉林

-0.07

11

四川

-0.66

26

广西

-0.09

12

云南

-1.06

27

内蒙

-0.1

13

宁夏

-1.35

28

天津

-0.14

14

青海

-1.37

29

河北

-0.17

15

黑龙江

-1.58

30

你可能感兴趣的:(运用spss进行数据处理,数据挖掘,数据分析,学习,建造者模式)