基于spss的多元统计分析 之 主成分分析(5/8)

实验目的:

1.掌握主成分分析的基本思想;

2.熟悉掌握SPSS软件进行主成分分析的基本操作;

3.利用实验指导的实例数据,上机熟悉主成分分析方法.

实验内容:

下表是我国2005年第1、2季度各地区城镇居民家庭收支基本情况的统计数据。根据这些数据进行主成分分析,并依据分析结果对地区城镇居民家庭收支情况进行排序和分类。

地区

平均每户人口(人)

平均每户就业人口(人)

平均每一就业者负担人数(人)

平均每人实际可支配收入(元)

平均每人消费性支出(元)

北京

2.9

1.6

1.8

8845.1

6249.3

天津

2.9

1.4

2

6189.1

4549.1

河北

2.9

1.5

1.9

4582.9

3317.3

山西

3

1.5

2

4359.7

3066.8

内蒙

2.9

1.5

1.9

4712.1

3557.8

辽宁

2.9

1.4

2

4501.2

3530.7

吉林

3

1.5

1.9

4293.7

3271.5

黑龙江

2.8

1.3

2.2

3902.3

2858.7

上海

3

1.6

1.9

9656.5

6623.3

江苏

2.9

1.4

2.1

6371.1

4222.1

浙江

2.8

1.4

1.9

8921.2

6127.5

安徽

3

1.6

1.9

4311.6

3121.4

福建

3.1

1.6

1.9

6471.8

4292.3

江西

2.9

1.5

1.9

4369.7

2945.1

山东

2.9

1.7

1.7

5357.7

3517.6

湖南

3

1.5

2

4558.5

3338.1

湖北

2.9

1.4

2.1

5010.7

3616.4

广东

3.3

1.7

1.9

7828.8

5941.7

广西

3

1.5

2

4876.8

3508.5

海南

3.6

1.6

2.3

4323

2975.4

重庆

3.1

1.6

1.9

5283.8

4187.8

四川

2.9

1.4

2

4333.5

3326.7

贵州

3.1

1.4

2.1

4177.4

3066.3

云南

3

1.3

2.2

4619.8

3415.4

西藏

3.4

1.7

2

4668.8

4467.1

陕西

3

1.5

2

4342.7

3186.6

甘肃

2.9

1.5

1.9

4031.8

3113.2

青海

3

1.3

2.3

3971.8

3070.3

宁夏

2.9

1.3

2.2

4078.3

3133.7

新疆

3

1.5

2.1

4018.4

3015.1

实验前预习:

主成分分析的基本思想;

SPSS软件进行主成分分析的基本操作;

程序测试、运行结果及分析:

主成分分析

(我国2005年第1、2季度各地区城镇居民家庭收支基本情况)

操作步骤:


  1. 录入数据:在变量视图将地区变量类型更改为字符串,其他类型为数字,再将题目数据复制粘贴到spss。
基于spss的多元统计分析 之 主成分分析(5/8)_第1张图片
  1. 数据标准化:

 勾选“将标准化值另存为变量”

基于spss的多元统计分析 之 主成分分析(5/8)_第2张图片


最后在数据视图得到新的标准化值数据列。

基于spss的多元统计分析 之 主成分分析(5/8)_第3张图片

  1. 因子分析
基于spss的多元统计分析 之 主成分分析(5/8)_第4张图片
将分析变量全部移入变量框,在相关性矩阵框中勾选系数和kmo检验
基于spss的多元统计分析 之 主成分分析(5/8)_第5张图片

点击提取,方法选择为主成分,勾选碎石图。

基于spss的多元统计分析 之 主成分分析(5/8)_第6张图片

最后点击继续和确定。

运行结果与分析:

KMO 和巴特利特检验

KMO 取样适切性量数。

.377

巴特利特球形度检验

近似卡方

149.179

自由度

10

显著性

.000

由KMO 和巴特利特检

  由KMO 和巴特利特检验p值小于0.05则表示有显著性,而KMO取样适切性量数。大于0.6比较适合,但其值为0.377所以数据不适合做主成分分析。

相关性矩阵

Zscore(平均每户人口(人))

Zscore(平均每户就业人口(人))

Zscore(平均每一就业者负担人数(人))

Zscore(平均每人实际可支配收入(元))

Zscore(平均每人消费性支出(元))

相关性

Zscore(平均每户人口(人))

1.000

.530

.244

-.051

.039

Zscore(平均每户就业人口(人))

.530

1.000

-.638

.322

.363

Zscore(平均每一就业者负担人数(人))

.244

-.638

1.000

-.437

-.425

Zscore(平均每人实际可支配收入(元))

-.051

.322

-.437

1.000

.969

Zscore(平均每人消费性支出(元))

.039

.363

-.425

.969

1.000

总方差解释

成分

初始特征值

提取载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

1

2.605

52.092

52.092

2.605

52.092

52.092

2

1.390

27.794

79.886

1.390

27.794

79.886

3

.937

18.746

98.631

4

.045

.896

99.528

5

.024

.472

100.000

提取方法:主成分分析法。

基于spss的多元统计分析 之 主成分分析(5/8)_第7张图片
  显示提取的主成分,SPSS默认提取特征值大于1的主成分,本题提取了两个主成分其特征值分别为2.605和1.390。前两个主成分的贡献率分分别为52.092%和27.794%,累计贡献率不足80%,没有基本保留了原来指标的信息,假如其贡献率超过85%,这样就由原来的5个指标转化为2个新指标,起到了降维的作用。碎石图则展示了每组的特征值可以用于验证图表总方差检验的特征值是否造假。

成分矩阵a

成分

1

2

Zscore(平均每户人口(人))

.116

.933

Zscore(平均每户就业人口(人))

.707

.610

Zscore(平均每一就业者负担人数(人))

-.737

.137

Zscore(平均每人实际可支配收入(元))

.874

-.290

Zscore(平均每人消费性支出(元))

.886

-.209

提取方法:主成分分析法。

a. 提取了 2 个成分。

主成分得分公式为f=w1*x1+w2*x2+…+wn*xn其中wj=为主成分矩阵的值与该成分特征值(2.605和0.390)的开根值,代表权重。每个主成分矩阵的值都要除以该成分特征值的开根值得到主成分公式的系数。

再次输入成分矩阵的系数数据

基于spss的多元统计分析 之 主成分分析(5/8)_第8张图片

通过spss转换功能进行计算w1和w2(主成分公式的系数)

基于spss的多元统计分析 之 主成分分析(5/8)_第9张图片


最终的到主成分F1和F2的系数w1和w2

基于spss的多元统计分析 之 主成分分析(5/8)_第10张图片

所以主成分方程为:

F1=0.072*x1 +0.438*x2-0.457*x3+0.542*x4 +0.549*x5

F2=0.791*x1+0.517*x2 +0.116*x3-0.246*x4-0.177*x5

综合得分为:(其系数来源于两个主成分对总体的贡献度)

F=0.521*F1+0.278*F2


然后通过spss计算F的具体数值

基于spss的多元统计分析 之 主成分分析(5/8)_第11张图片

基于spss的多元统计分析 之 主成分分析(5/8)_第12张图片

对最后F值进行排序,便可以对对应城市进行排序,最终得到如下城市排名:

城市

综合得分

排名

城市

综合得分

排名

广东

2.08

1

湖南

-0.17

16

上海

1.7

2

陕西

-0.23

17

北京

1.51

3

山西

-0.25

18

西藏

1.33

4

江西

-0.28

19

福建

0.91

5

甘肃

-0.29

20

山东

0.89

6

江苏

-0.34

21

重庆

0.73

7

新疆

-0.46

22

浙江

0.57

8

贵州

-0.59

23

海南

0.51

9

辽宁

-0.6

24

安徽

0.21

10

湖北

-0.65

25

吉林

-0.07

11

四川

-0.66

26

广西

-0.09

12

云南

-1.06

27

内蒙

-0.1

13

宁夏

-1.35

28

天津

-0.14

14

青海

-1.37

29

河北

-0.17

15

黑龙江

-1.58

30

讨论:

  • 主成分分析的应用

1、主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m

2、有时可通过因子负荷的结构,弄清X变量间的某些关系。

3、多维数据的一种图形表示方法。

4、由主成分分析法构造回归模型。把各主成分作为新自变量代替原来自变盈X做回归分析。

5、用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可用较少的计算量来选择量,获得选择最佳变量子集合的效果。

  • 主成分得分公式的计算

主成分得分公式为f=w1*x1+w2*x2+…+wn*xn其中wj=为主成分矩阵的值与该成分特征值(2.605和0.390)的开根值,代表权重。每个主成分矩阵的值都要除以该成分特征值的开根值得到主成分公式的系数。

最后的综合得分为每个主成分与其对总体的贡献度百分比的乘积之和即(其系数来源于两个主成分对总体的贡献度)F=a1*F1+a2*F2+…+an*Fn对综合得分进行排序便可以对最终所对应的数据进行排名。

你可能感兴趣的:(运用spss进行数据处理,python,算法,人工智能,spss)