自我国今年提出《国民经济和社会发展第十四个五年规划》后,如何坚持创新驱动发展、全面塑造发展新优势,以及如何加快各省份发展现代产业体系、巩固壮大实体经济根基成为全社会关注的热点。首先,我们应该将各省份的经济发展指标作为切入点,深度剖析每个经济指标对各省份的经济影响,研究各经济指标对各省份的影响程度,总结因经济指标的不同而造成的各省份经济不同的原因。最后找出先行经济的不足,做出科学的决策。
我们通过分析各省份的社会经济的12项统计指标来研究各省份的经济运行状况。根据CSMAR数据库历年对各省份的统计资料,我们提取1200条以上有关数据进行汇总,汇总数据见附录1。
统计方法与SAS实现
为了研究各省份的经济情况,我们将采用描述性统计、主成分分析、因子分析等方法进行多角度、全方面的分析。
数据获取和数据预处理
经济指标 |
变量 |
地区生产总值(亿元) |
X1 |
人均GDP(元) |
X2 |
房屋平均销售价格(元/平方米) |
X3 |
进出口总额(万美元) |
X4 |
建筑业总产值(万元) |
X5 |
固定资产投资总额(亿元) |
X6 |
社会消费品零售总额(亿元) |
X7 |
职工平均工资(元) |
X8 |
旅游人数(万人次) |
X9 |
表 1 经济指标命名
为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。利用means过程计算各变量的描述性统计量,包括均值、标准差、最大最小值、极差、变异系数和偏度(保留两位小数)。结果如下:
变量 |
均值 |
标准差 |
最大值 |
最小值 |
极差 |
变异系数 |
偏度 |
x1 |
27327.1 |
22186.91 |
89705.23 |
1310.92 |
88394.31 |
81.19 |
1.55 |
x2 |
60696.77 |
27594.6 |
129059.47 |
28407.84 |
100651.63 |
45.46 |
1.39 |
x3 |
8536.35 |
5891.87 |
32140 |
4544 |
27596 |
69.02 |
2.91 |
x4 |
13248917 |
23450968.62 |
111365891.5 |
45025.2 |
111320866.3 |
177 |
3.04 |
x5 |
69014051.29 |
67099387.15 |
279567104.8 |
1479178.6 |
278087926.2 |
97.23 |
1.93 |
x6 |
20516.71 |
14655.78 |
55202.72 |
1975.6 |
53227.12 |
71.43 |
0.78 |
x7 |
11738.88 |
9583.92 |
38200.1 |
523.3 |
37676.8 |
81.64 |
1.31 |
x8 |
73352.03 |
18656.05 |
131700 |
55495 |
76205 |
25.43 |
2.24 |
x9 |
373.73 |
644.85 |
3654.52 |
6.53 |
3647.99 |
172.55 |
4.65 |
表 2 means过程
根据表2的结果,可以得出以下结论:
进一步可以考虑8个变量之间的相关系数,结果如下:
图 1 变量之间的相关系数矩阵
从上表中我们发现有的相关系数较小,在0.1以下;有的变量之间相关系数较大,达到0.8以上,且显著性检验的P值很小。这表明有的变量之间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各省份的情况。
采用因子分析的方法实现对数据的降维处理,将9个经济指标综合为几个因子来进行研究。首先用fator过程计算得到数据相关矩阵的特征值如表3所示:
相关矩阵的特征值: 总计 = 9 平均值 = 1 |
||||
特征值 |
差分 |
比例 |
累积 |
|
1 |
4.02654448 |
1.79299082 |
0.4474 |
0.4474 |
2 |
2.23355365 |
0.88059942 |
0.2482 |
0.6956 |
3 |
1.35295423 |
0.52681974 |
0.1503 |
0.8459 |
4 |
0.82613449 |
0.64978288 |
0.0918 |
0.9377 |
5 |
0.17635162 |
0.02499277 |
0.0196 |
0.9573 |
6 |
0.15135885 |
0.03995335 |
0.0168 |
0.9741 |
7 |
0.1114055 |
0.03327899 |
0.0124 |
0.9865 |
8 |
0.07812651 |
0.03455584 |
0.0087 |
0.9952 |
9 |
0.04357067 |
0.0048 |
1 |
表 3 相关矩阵的特征值
从表中看出,相关矩阵的前三个特征值分别为4.02654448、2.23355365和1.35295432,对应三个公共因子的累积方差贡献率已达到0.8459,因此3个公共因子所代表的信息已经能够较为充分地反映原始变量的信息,接下来指定两个公共因子来进行因子分析。
利用主成分法,factor过程计算了三因子模型的因子载荷矩阵、公共因子解释的方差、变量的共同度,结果如下:
因子模式 |
|||
Factor1 |
Factor2 |
Factor3 |
|
x1 |
0.819 |
0.29313 |
-0.3995 |
x2 |
0.7694 |
-0.51232 |
0.13104 |
x3 |
0.57736 |
-0.75166 |
0.1811 |
x4 |
0.90724 |
0.17848 |
-0.22083 |
x5 |
0.72191 |
0.17916 |
-0.2152 |
x6 |
0.36657 |
0.54779 |
0.70963 |
x7 |
0.47731 |
0.64955 |
0.534 |
x8 |
0.50152 |
-0.70264 |
0.38407 |
x9 |
0.68738 |
0.20131 |
-0.33477 |
表 4 因子载荷矩阵
每个因子已解释方差 |
||
Factor1 |
Factor2 |
Factor3 |
4.0265445 |
2.2335537 |
1.3529542 |
表 5 公共因子解释的方差
最终的公因子方差估计: 总计 = 7.613052 |
||||||||
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
x8 |
x9 |
0.91628855 |
0.87162105 |
0.93112834 |
0.90370537 |
0.5995584 |
0.93801823 |
0.93489847 |
0.89274058 |
0.62509339 |
表 6 变量的共同度
从表6中得出前8个变量的共同度都在0.8以上,虽然第9个的共同度小于0.8,我们仍认为该因子模型已经能够较好的反映原始变量的信息。
但是在表4的因子载荷矩阵中,第二个和第三个公共因子的因子载荷很多小于0.4,且出现较多的负值。这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行因子旋转,计算因子得分,结果如下:
旋转因子模式 |
|||
Factor1 |
Factor2 |
Factor3 |
|
x1 |
0.9498 |
0.0537 |
0.10624 |
x2 |
0.39768 |
0.84356 |
0.04337 |
x3 |
0.14864 |
0.9469 |
-0.11145 |
x4 |
0.89299 |
0.25325 |
0.20526 |
x5 |
0.74212 |
0.15843 |
0.15401 |
x6 |
0.07725 |
0.02586 |
0.96508 |
x7 |
0.28774 |
-0.0592 |
0.92119 |
x8 |
-0.00478 |
0.94356 |
0.04918 |
x9 |
0.78396 |
0.07981 |
0.0643 |
表 7 旋转后的因子载荷矩阵
从表7可以看出,此时三个公共因子的意义已经比较明显:x1、x4、x5、x9在因子factor1上都有很大的正载荷,在x2、x7上有中等的正载荷,其余变量只有只有小的载荷,因而该因子可称为省份的发展潜力因子。x2、x3、x8在因子factor2上有大的正载荷,其余变量的载荷都基本较小,该因子可称为各省份的工资水平因子。x6、x7在因子factor3上有很大的正载荷,在其与变量上的载荷较小,该因子可称为各省份的交通投入因子。
利用因子模型,可以计算出每个地区在三个公共因子的得分,得分数据见附录一表scoreout,接下来利用sort过程对数据集scoreout按照公因子进行排序。得到按照发展潜力、政策影响、投资力度输出的排序,如下表所示:
地区 |
发展潜力 |
地区 |
政策影响 |
地区 |
投资力度 |
广东 |
3.68021 |
北京 |
3.54377 |
贵州 |
2.6389 |
江苏 |
2.12408 |
上海 |
2.9566 |
福建 |
2.21487 |
浙江 |
1.44592 |
天津 |
1.64276 |
江苏 |
1.74109 |
山东 |
1.32169 |
西藏 |
0.63077 |
辽宁 |
1.35015 |
河南 |
0.41723 |
浙江 |
0.58657 |
青海 |
0.95054 |
湖北 |
0.40014 |
江苏 |
0.31351 |
西藏 |
0.95037 |
四川 |
0.23524 |
福建 |
0.19077 |
新疆 |
0.85 |
湖南 |
0.17846 |
海南 |
0.09423 |
江西 |
0.78466 |
福建 |
0.06678 |
青海 |
-0.09306 |
上海 |
0.36274 |
安徽 |
0.05127 |
广东 |
-0.11361 |
广东 |
0.32849 |
上海 |
0.02271 |
重庆 |
-0.1205 |
浙江 |
0.08581 |
河北 |
0.00847 |
陕西 |
-0.29482 |
吉林 |
-0.09261 |
广西 |
-0.02593 |
湖北 |
-0.30083 |
四川 |
-0.10247 |
重庆 |
-0.06579 |
内蒙古 |
-0.30389 |
陕西 |
-0.2005 |
云南 |
-0.11871 |
宁夏 |
-0.31361 |
宁夏 |
-0.23628 |
陕西 |
-0.13645 |
贵州 |
-0.3463 |
山西 |
-0.26852 |
北京 |
-0.26982 |
辽宁 |
-0.36409 |
河南 |
-0.4095 |
内蒙古 |
-0.35754 |
新疆 |
-0.37132 |
安徽 |
-0.4907 |
黑龙江 |
-0.37672 |
吉林 |
-0.37339 |
云南 |
-0.49245 |
江西 |
-0.38763 |
山东 |
-0.39117 |
湖南 |
-0.52091 |
辽宁 |
-0.39207 |
四川 |
-0.45964 |
海南 |
-0.56512 |
天津 |
-0.43023 |
河北 |
-0.48448 |
湖北 |
-0.56755 |
山西 |
-0.45747 |
江西 |
-0.52636 |
河北 |
-0.6094 |
吉林 |
-0.51046 |
安徽 |
-0.55381 |
天津 |
-0.65556 |
甘肃 |
-0.56975 |
云南 |
-0.57962 |
山东 |
-0.72097 |
新疆 |
-0.76869 |
山西 |
-0.58535 |
黑龙江 |
-0.76558 |
海南 |
-0.77922 |
湖南 |
-0.60122 |
重庆 |
-0.94926 |
宁夏 |
-0.77992 |
广西 |
-0.63915 |
内蒙古 |
-1.06383 |
贵州 |
-1.04238 |
甘肃 |
-0.65294 |
北京 |
-1.16104 |
青海 |
-1.1052 |
黑龙江 |
-0.65943 |
甘肃 |
-1.17669 |
西藏 |
-1.37824 |
河南 |
-0.83037 |
广西 |
-1.2087 |
表 8 按不同因子排序
从表8我们可以得出以下结论:
*表1 means过程*;
proc means data=work.sasdata maxdec=2 mean std max min range cv skew;
var x1-x9;
run;
*图2变量之间的相关系数矩阵*;
proc corr data=work.sasdata;
var x1-x9;
run;
*表3 相关矩阵的特征值*;
proc factor data=sasdata;
var x1-x9;
run;
*表 4\5\6代码*;
proc factor data=sasdata n=3;
var x1-x9;
run;
*表7旋转后的因子载荷矩阵*;
proc factor data=sasdata n=3 rotate=varimax score out=scoreout;
var x1-x9;
run;
*表8 各省份按不同因子排序*
proc sort data=scoreout out=f1;
by descending factor1;
run;
proc sort data=scoreout out=f2;
by descending factor2;
run;
proc sort data=scoreout out=f3;
by descending factor3;
run;
proc reg data=chap7.house; /*调用REG过程*/
model Y=X1-X9/selection=stepwise slstay=0.1 slentry=0.15;
/*定义分析模型,并指定逐步回归法进行模型选择*/
run;