各省市经济情况分析——基于SAS软件

  1. 问题背景与数据描述

自我国今年提出《国民经济和社会发展第十四个五年规划》后,如何坚持创新驱动发展、全面塑造发展新优势,以及如何加快各省份发展现代产业体系、巩固壮大实体经济根基成为全社会关注的热点。首先,我们应该将各省份的经济发展指标作为切入点,深度剖析每个经济指标对各省份的经济影响,研究各经济指标对各省份的影响程度,总结因经济指标的不同而造成的各省份经济不同的原因。最后找出先行经济的不足,做出科学的决策。

我们通过分析各省份的社会经济的12项统计指标来研究各省份的经济运行状况。根据CSMAR数据库历年对各省份的统计资料,我们提取1200条以上有关数据进行汇总,汇总数据见附录1。

统计方法与SAS实现

为了研究各省份的经济情况,我们将采用描述性统计、主成分分析、因子分析等方法进行多角度、全方面的分析。

数据获取和数据预处理

  1. 为了便于分析,我们将用以下变量来表示各经济指标:

经济指标

变量

地区生产总值(亿元)

X1

人均GDP(元)

X2

房屋平均销售价格(元/平方米)

X3

进出口总额(万美元)

X4

建筑业总产值(万元)

X5

固定资产投资总额(亿元)

X6

社会消费品零售总额(亿元)

X7

职工平均工资(元)

X8

旅游人数(万人次)

X9

表 1 经济指标命名

  1. 描述性统计分析

为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。利用means过程计算各变量的描述性统计量,包括均值、标准差、最大最小值、极差、变异系数和偏度(保留两位小数)。结果如下:

变量

均值

标准差

最大值

最小值

极差

变异系数

偏度

x1

27327.1

22186.91

89705.23

1310.92

88394.31

81.19

1.55

x2

60696.77

27594.6

129059.47

28407.84

100651.63

45.46

1.39

x3

8536.35

5891.87

32140

4544

27596

69.02

2.91

x4

13248917

23450968.62

111365891.5

45025.2

111320866.3

177

3.04

x5

69014051.29

67099387.15

279567104.8

1479178.6

278087926.2

97.23

1.93

x6

20516.71

14655.78

55202.72

1975.6

53227.12

71.43

0.78

x7

11738.88

9583.92

38200.1

523.3

37676.8

81.64

1.31

x8

73352.03

18656.05

131700

55495

76205

25.43

2.24

x9

373.73

644.85

3654.52

6.53

3647.99

172.55

4.65

表 2 means过程

根据表2的结果,可以得出以下结论:

  1. 除了x2(人均GDP)和x8(职工平均工资)的变异系数不是很大外,其他各变量的变异系数都大于50,其中x4(进出口总额)、x9(旅游人数)的变异系数都大于100,这说明全国31个省份在以上几个方面存在很大的差异,从极差可以大致看出各省份之间的差别。
  2. x8(职工平均工资)的变异系数在8个指标的变异系数中是最小的,这说明虽然职工的工资跟城市的发展水平有关,但其增长的幅度相较于各省份的经济发展是不相应的,职工并没有在城市发展的过程中享受到更多的福利。城市发展了,职工并没有享受到更多的福利。

进一步可以考虑8个变量之间的相关系数,结果如下:

各省市经济情况分析——基于SAS软件_第1张图片

 图 1 变量之间的相关系数矩阵

从上表中我们发现有的相关系数较小,在0.1以下;有的变量之间相关系数较大,达到0.8以上,且显著性检验的P值很小。这表明有的变量之间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各省份的情况。

  1. 因子分析

采用因子分析的方法实现对数据的降维处理,将9个经济指标综合为几个因子来进行研究。首先用fator过程计算得到数据相关矩阵的特征值如表3所示:

相关矩阵的特征值: 总计 = 9 平均值 = 1

特征值

差分

比例

累积

1

4.02654448

1.79299082

0.4474

0.4474

2

2.23355365

0.88059942

0.2482

0.6956

3

1.35295423

0.52681974

0.1503

0.8459

4

0.82613449

0.64978288

0.0918

0.9377

5

0.17635162

0.02499277

0.0196

0.9573

6

0.15135885

0.03995335

0.0168

0.9741

7

0.1114055

0.03327899

0.0124

0.9865

8

0.07812651

0.03455584

0.0087

0.9952

9

0.04357067

0.0048

1

表 3 相关矩阵的特征值

从表中看出,相关矩阵的前三个特征值分别为4.02654448、2.23355365和1.35295432,对应三个公共因子的累积方差贡献率已达到0.8459,因此3个公共因子所代表的信息已经能够较为充分地反映原始变量的信息,接下来指定两个公共因子来进行因子分析。

利用主成分法,factor过程计算了三因子模型的因子载荷矩阵、公共因子解释的方差、变量的共同度,结果如下:

因子模式

Factor1

Factor2

Factor3

x1

0.819

0.29313

-0.3995

x2

0.7694

-0.51232

0.13104

x3

0.57736

-0.75166

0.1811

x4

0.90724

0.17848

-0.22083

x5

0.72191

0.17916

-0.2152

x6

0.36657

0.54779

0.70963

x7

0.47731

0.64955

0.534

x8

0.50152

-0.70264

0.38407

x9

0.68738

0.20131

-0.33477

表 4 因子载荷矩阵

每个因子已解释方差

Factor1

Factor2

Factor3

4.0265445

2.2335537

1.3529542

表 5 公共因子解释的方差

最终的公因子方差估计: 总计 = 7.613052

x1

x2

x3

x4

x5

x6

x7

x8

x9

0.91628855

0.87162105

0.93112834

0.90370537

0.5995584

0.93801823

0.93489847

0.89274058

0.62509339

表 6 变量的共同度

从表6中得出前8个变量的共同度都在0.8以上,虽然第9个的共同度小于0.8,我们仍认为该因子模型已经能够较好的反映原始变量的信息。

但是在表4的因子载荷矩阵中,第二个和第三个公共因子的因子载荷很多小于0.4,且出现较多的负值。这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行因子旋转,计算因子得分,结果如下:

旋转因子模式

Factor1

Factor2

Factor3

x1

0.9498

0.0537

0.10624

x2

0.39768

0.84356

0.04337

x3

0.14864

0.9469

-0.11145

x4

0.89299

0.25325

0.20526

x5

0.74212

0.15843

0.15401

x6

0.07725

0.02586

0.96508

x7

0.28774

-0.0592

0.92119

x8

-0.00478

0.94356

0.04918

x9

0.78396

0.07981

0.0643

表 7 旋转后的因子载荷矩阵

从表7可以看出,此时三个公共因子的意义已经比较明显:x1、x4、x5、x9在因子factor1上都有很大的正载荷,在x2、x7上有中等的正载荷,其余变量只有只有小的载荷,因而该因子可称为省份的发展潜力因子。x2、x3、x8在因子factor2上有大的正载荷,其余变量的载荷都基本较小,该因子可称为各省份的工资水平因子。x6、x7在因子factor3上有很大的正载荷,在其与变量上的载荷较小,该因子可称为各省份的交通投入因子。

利用因子模型,可以计算出每个地区在三个公共因子的得分,得分数据见附录一表scoreout,接下来利用sort过程对数据集scoreout按照公因子进行排序。得到按照发展潜力、政策影响、投资力度输出的排序,如下表所示:

地区

发展潜力

地区

政策影响

地区

投资力度

广东

3.68021

北京

3.54377

贵州

2.6389

江苏

2.12408

上海

2.9566

福建

2.21487

浙江

1.44592

天津

1.64276

江苏

1.74109

山东

1.32169

西藏

0.63077

辽宁

1.35015

河南

0.41723

浙江

0.58657

青海

0.95054

湖北

0.40014

江苏

0.31351

西藏

0.95037

四川

0.23524

福建

0.19077

新疆

0.85

湖南

0.17846

海南

0.09423

江西

0.78466

福建

0.06678

青海

-0.09306

上海

0.36274

安徽

0.05127

广东

-0.11361

广东

0.32849

上海

0.02271

重庆

-0.1205

浙江

0.08581

河北

0.00847

陕西

-0.29482

吉林

-0.09261

广西

-0.02593

湖北

-0.30083

四川

-0.10247

重庆

-0.06579

内蒙古

-0.30389

陕西

-0.2005

云南

-0.11871

宁夏

-0.31361

宁夏

-0.23628

陕西

-0.13645

贵州

-0.3463

山西

-0.26852

北京

-0.26982

辽宁

-0.36409

河南

-0.4095

内蒙古

-0.35754

新疆

-0.37132

安徽

-0.4907

黑龙江

-0.37672

吉林

-0.37339

云南

-0.49245

江西

-0.38763

山东

-0.39117

湖南

-0.52091

辽宁

-0.39207

四川

-0.45964

海南

-0.56512

天津

-0.43023

河北

-0.48448

湖北

-0.56755

山西

-0.45747

江西

-0.52636

河北

-0.6094

吉林

-0.51046

安徽

-0.55381

天津

-0.65556

甘肃

-0.56975

云南

-0.57962

山东

-0.72097

新疆

-0.76869

山西

-0.58535

黑龙江

-0.76558

海南

-0.77922

湖南

-0.60122

重庆

-0.94926

宁夏

-0.77992

广西

-0.63915

内蒙古

-1.06383

贵州

-1.04238

甘肃

-0.65294

北京

-1.16104

青海

-1.1052

黑龙江

-0.65943

甘肃

-1.17669

西藏

-1.37824

河南

-0.83037

广西

-1.2087

表 8 按不同因子排序

从表8我们可以得出以下结论:

  1. 广东、江苏、浙江、山东在发展潜力上名列前茅,说明这三个省份具有很大的发展潜力。据有关报道,在2021年的百强区排名中,江苏有22个、广东有20个、浙江有12个、山东有10个城市登榜。在全国前十强中,广东占据了8个。广东有17个在前50名,江苏有10个在前50名。贵州、青海、西藏在发展潜力上排名靠后,说明三个省还没有很好的发展机遇。
  2. 北京、上海、天津在政策影响上位居前三位,这三个省份不仅是我国的直辖区、一流城市,还曾是历代朝代的经济重都,贸易历史悠久。国际化水平较高,在建国之初就得到优先发展。紧随其后的西藏有着很好的政策福利,在西藏的就业人员平均工资水平高,有高原补贴养老金,且多次上调工资水平。
  3. 贵州、福建、江苏在投资力度上位居前三,可以看出各省份在经济发展上所下的力度。与福建、江苏两省投资实现产业升级不同的是,贵州是发展条件较落后的地区,并不像沿海发达城市有技术、人才和资本大规模的发展新经济,实现产业升级,它的出路只有立足于本省的资源优势,投资发展相关产业。北京投资力度小是因为已经实现了全面发展,不用过多的投入实现产业转型。
    *表1 means过程*;
    proc means data=work.sasdata maxdec=2 mean std max min range cv skew;
    var x1-x9;
    run;
    *图2变量之间的相关系数矩阵*;
    proc corr data=work.sasdata;
    var x1-x9;
    run;
    *表3 相关矩阵的特征值*;
    proc factor data=sasdata;
    var x1-x9;
    run;
    *表 4\5\6代码*;
    proc factor data=sasdata n=3;
    var x1-x9;
    run;
    *表7旋转后的因子载荷矩阵*;
    proc factor data=sasdata n=3 rotate=varimax score out=scoreout;
    var x1-x9;
    run;
    *表8 各省份按不同因子排序*
    proc sort data=scoreout out=f1;
    by descending factor1;
    run;
    proc sort data=scoreout out=f2;
    by descending factor2;
    run;
    proc sort data=scoreout out=f3;
    by descending factor3;
    run;
    proc reg data=chap7.house;   /*调用REG过程*/
    	model Y=X1-X9/selection=stepwise slstay=0.1 slentry=0.15;
    		/*定义分析模型,并指定逐步回归法进行模型选择*/
    run;

你可能感兴趣的:(SAS,主成分分析,因子分析,大数据)