基于因子分析和聚类分析 的SPSS河南省各地区综合发展分析+操作步骤+全文详细

目 录
第1章 研究的目的与现状分析 3
1.1 研究的目的与意义 3
1.2 研究的内容 3
第2章 统计分析与整理 4
第3章 算法介绍与案例分析 4
3.1 算法介绍 4
3.2 案例分析 5
第4章 总结与展望 11
参考文献 12

第1章 研究的目的与现状分析
1.1 研究的目的与意义
河南为我国第一人口大省,改革开放30年来,特别是随中部崛起战略的实施和中原城市群的加快建设,河南已经成为我国的经济大省,GDP总量已经跃居我国第5位。但在河南省内18个地级市中,经济规模、经济结构、经济发展质量、可持续发展等方面还存在着差异,对省内各市经济综合实力进行客观评价,并对有相似特征的市区进行因子分析和聚类分析,可以为河南今后经济又好又快发展提供决策依据并减少工作量。
1.2 研究的内容
地区综合实力能反映一个地区社会经济系统的发展水平,也是评价一个地区社会经济系统发展状况的重要指标,收集到河南各市GDP总量(亿元)、财政收入(亿元)、当年储蓄余额(亿元)、固定资产投资总额(亿元)、社会零售品销售总额(亿元)、第二产业增加值(亿元)、第三产业增加值(亿元)、工业增加值(亿元)、出口总额(亿美元)、进口总额(亿美元)等数据代表河南省的综合实力,并分别对数据进行因子分析、聚类分析。
表1 综合实力量化指标

符号 含义
X1 GDP总量(亿元)
X2 财政收入(亿元)
X3 当年储蓄余额(亿元)
X4 固定资产投资总额(亿元)
X5 社会零售品销售总额(亿元)
X6 第二产业增加值(亿元)
X7 第三产业增加值(亿元)
X8 工业增加值(亿元)
X9 出口总额(亿美元)
X10 进口总额(亿美元)

收集到的数据见下表。
表2 指标量化水平
城市 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
郑州 4040 386 7990 2757 1678 2269 1646 1996 34.7 17.0
开封 927 37 681 506 364 400 307 368 1.8 0.5
洛阳 2320 142 2096 1768 808 1396 736 1243 10.5 4.9
平顶山 1310 80 1137 712 349 869 326 821 2.8 2.2
安阳 1315 65 995 894 345 809 347 731 4.4 l1.5
鹤壁 429 22 285 356 93 301 78 283 1.2 0.2
新乡 1189 70 1144 1211 388 686 346 602 6.9 4.4
焦作 1245 63 748 970 321 855 289 804 10.5 6.9
濮阳 775 30 588 532 230 515 152 476 4.1 0.7
许昌 1317 57 830 829 349 901 264 847 10.8 2.0
漯河 680 26 421 403 216 474 119 452 1.5 2.4
三门峡 874 49 625 677 202 599 205 562 1.0 0.6
南阳 1935 69 147 1389 789 1017 535 910 6.4 6.1
商丘 1143 43 901 845 399 532 312 464 1.0 0.3
信阳 1091 34 1054 1031 432 460 342 376 1.0 2.5
周口 1228 38 930 813 483 557 304 492 1.7 2.1
驻马店 1053 36 969 668 376 441 321 393 1.7 0.5
济源 343 22 108 224 69 259 67 246 2.5 l1.8

第2章 统计分析与整理
对各指标量化水平计算得到全距、极小值、极大值、均值、标准差、方差、偏度、峰度值如下:
表3 指标量化统计值
指标 全距 极小值 极大值 均值 标准差 方差 偏度 峰度
X1 3697 343 4040 1289.67 831.544 691465.059 2.322 6.930
X2 364 22 386 70.50 83.757 7015.206 3.513 13.350
X3 7882 108 7990 1202.72 1753.215 3073762.565 3.793 15.258
X4 2533 224 2757 921.39 593.925 352746.487 1.923 4.738
X5 1609 69 1678 438.39 364.184 132630.016 2.561 7.995
X6 2010 259 2269 741.11 474.890 225520.340 2.188 5.899
X7 1579 67 1646 372.00 354.784 125871.765 3.011 10.546
X8 1750 246 1996 670.33 418.646 175264.235 2.074 5.350
X9 11 0 11 3.29 3.308 10.945 1.354 0.935
X10 17 0 17 2.93 4.122 16.988 2.584 7.987

第3章 算法介绍与案例分析
3.1 算法介绍
1.因子分析探讨具有相关关系的变量之间,是否存在不能直接观察到的,但对可观测变量的变化其支配作用的潜在因素的分析方法就是因子分析,也叫因素分析。也就是说因子分析是寻找潜在的、起支配作用因子的方法。现对18个地区的10个经济指标调查数据进行综合评价。
步骤:
1)评估变量是否适合做因子分析:因子分析的变量要求为连续型变量,分类变量不适合直接进行因子分析。做因子分析的变量还必须具备相关性,因此需要对所分析的变量做相关性分析。
2)选择因子变量提取方法:常用主成分分析法来提取公共因子变量,特征值>1、方差贡献率>80%时即可提取公共因子变量。但当指标比较多时,提取的因子可能不是很明显,因此这时候就需要旋转因子。
3)旋转因子:旋转因子是为了能对各原始变量更好地分类,常用最大方差法来旋转,旋转次数可以自己规定也可以让SPSS来规定。
4)计算公共因子得分:因子得分有助于之后的分析中将公共因子当作分析变量,而不再分析降维前的原始变量。
2.聚类分析是依据研究对象的特征,对其进行分类的方法,减少研究对象的数目,目的是将性质相近事物归入一类。聚类分析有很多种类型,本次选择的聚类方式为均值聚类。
步骤:
1)确定研究问题
2)研究设计
3)考虑是否满足基本的假定
4)选择聚类方法
5)解释聚类分析的结果
6)评价聚类分析结果的有效性。利用适当的结果变量进行评价;利用其它描述性的变量描述各个类别的轮廓。
3.2 案例分析
首先进行因子分析。在进行因子分析中先进行降维,其中KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1,KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。

图1 因子分析操作
Bartlett’s球形检验用于检验相关阵中各变量间的相关性,是否为单位阵,即检验各个变量是否各自独立。如果变量间彼此独立,则无法从中提取公因子,也就无法应用因子分析法。
表4 KMO 和巴特利特检验
类型 值
KMO .810
巴特利特球形度检验 近似卡方 429.564
自由度 45
显著性 .000

得到结果KMO值为0.810,接近1,变量间的相关性越强,原有变量比较适合作因子分析。Bartlett球形检验判断如果相关阵是单位阵,则各变量独立,因子分析法无效。由SPSS检验结果显示Sig.<0.05(即p值<0.05)时,说明各变量间具有相关性,因子分析有效。
抽取一般来说方法选择主成分方法,并选择因子的固定数目为5。

图2 因子分析操作
经过旋转是为了方便看变量属于哪个因子。方法选用最大方差法,结果显示旋转解和载荷图。

图3因子分析操作
最后因子得分选择的方法为回归,并按列排除个案。
结果分析如下:公因子方差表的意思就是,每一个变量都可以用公因子表示,提取的值越大说明变量可以被公因子表达的越好,一般大于0.5即可以说是可以被表达,但是更好的是要求大于0.7才足以说明变量能被公因子表的很合理。在本例中可以看到,“提取”的值都是大于0.7的,所以变量可以被表达的很不错。
表5 公因子方差
指标 初始 提取
X1 1.000 .996
X2 1.000 .996
X3 1.000 .997
X4 1.000 .976
X5 1.000 .989
X6 1.000 1.000
X7 1.000 .996
X8 1.000 1.000
X9 1.000 1.000
X10 1.000 .999
提取方法:主成分分析法。

总方差解释就是看因子对于变量解释的贡献率。

表6总方差解释
成分 初始特征值 提取载荷平方和 旋转载荷平方和
总计 方差百分比 累积 % 总计 方差百分比 累积 % 总计 方差百分比 累积 %
1 8.282 82.820 82.820 8.282 82.820 82.820 6.865 68.647 68.647
2 1.115 11.150 93.971 1.115 11.150 93.971 1.562 15.621 84.268
3 .305 3.046 97.016 .305 3.046 97.016 1.119 11.186 95.454
4 .155 1.546 98.562 .155 1.546 98.562 .207 2.066 97.520
5 .093 .928 99.489 .093 .928 99.489 .197 1.969 99.489
6 .037 .371 99.860
7 .009 .090 99.950
8 .004 .043 99.993
9 .001 .006 99.999
10 8.083E-5 .001 100.000

贡献率显示4个因子就可以将变量表达到了98.562%,说明表达的还是不错的,再看碎石图,也确实就是4个因子之后折线就变得平缓了,但是为了使结果更准确仍然选取5个因子。

图4因子分析碎石图

这里可以直接看旋转后的成分矩阵。采用方差极大法对因子载荷矩阵实行正交旋转以使因子具有命名解释性。
表7旋转后的成分矩阵
成分
1 2 3 4 5
X1 .929 .338 .098 -.018 .091
X2 .895 .333 -.050 .250 .139
X3 .879 .276 -.165 .346 .036
X4 .907 .358 .140 -.062 -.021
X5 .956 .268 .019 -.044 -.031
X6 .860 .399 .169 .061 .263
X7 .947 .303 -.021 .084 .008
X8 .840 .402 .179 .066 .309
X9 .037 .006 .999 -.013 .015
X10 .588 .805 -.020 .058 .041
下表显示了两因子的协方差矩阵。五个因子间没有线性相关性,实现了因子分析的设计目标。
表8成分得分协方差矩阵
成分 1 2 3 4 5
1 1.000 .000 .000 .000 .000
2 .000 1.000 .000 .000 .000
3 .000 .000 1.000 .000 .000
4 .000 .000 .000 1.000 .000
5 .000 .000 .000 .000 1.000

最后写出五个因子得分函数:
F1=0.262X1+0.060X2+0.092X3+0.283X4+0.424X5+0.028X6+0.283X7-0.008X8-0.063X9-0.549X10
F2=-0.171X1-0.128X2-0.154X3+0.017X4-0.299X5-0.058X6-0.191X7-0.070X8+0.039X9+1.647X10
F3=-0.038X1+0.006X2+0.047X3+0.059X4-0.056X5-0.017X6-0.013X7-0.036X8+1.015X9+0.013X10
F4=-0.758X1+1.095X2+1.927X3-0.820X4-0.826X5-0.356X6+0.063X7-0.386X8+0.712X9+0.186X10
F5=0.164X1+0.220X2-0.765X3-0.823X4-0.778X5+1.503X6-0.674X7+1.908X8-0.626X9-0.713X10
对各地区实力进行综合评价,采用计算因子加权总分的方法,其中权重的确定是关键。综合评分可以基于各公因子所对应的方差贡献率比例为权重来计算,公式为:
S=各因子方差百分比/总方差百分比*各因子得分

表9成分得分系数矩阵
成分
1 2 3 4 5
X1 .262 -.171 -.038 -.758 .164
X2 .060 -.128 .006 1.095 .220
X3 .092 -.154 .047 1.927 -.765
X4 .283 .017 .059 -.820 -.823
X5 .424 -.299 -.056 -.826 -.778
X6 .028 -.058 -.017 -.356 1.503
X7 .283 -.191 -.013 .063 -.674
X8 -.008 -.070 -.036 -.386 1.908
X9 -.063 .039 1.015 .712 -.626
X10 -.549 1.647 .013 .186 -.713

得到18个市的综合得分如下:
表10综合得分
城市 总得分
郑州 5800.778
平顶山 1191.373
许昌 769.818
洛阳 731.949
安阳 582.444
三门峡 470.513
焦作 450.575
濮阳 419.189
漯河 398.131
鹤壁 212.402
济源 171.755
新乡 37.248
驻马店 25.424
开封 -82.597
商丘 -151.685
周口 -184.427
信阳 -465.866
南阳 -1654.722
接下来进行聚类分析。由于是对案例聚类所以可以选择K-means聚类。聚类即按照个体的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。在聚类分析中,一般的规则是将距离较小的点归为同一类,将距离较大的点归为不同的类。

图5聚类分析操作
由因子分析的经验来看,本次聚为3类,设置最大迭代次数为10次。
经过两次迭代就得到聚类结果。
表11聚类结果
案例号 城市 聚类 距离
1 郑州 1 .000
2 开封 2 341.128
3 洛阳 3 1047.748
4 平顶山 2 648.340
5 安阳 2 544.596
6 鹤壁 2 941.251
7 新乡 2 683.610
8 焦作 2 533.967
9 濮阳 2 364.916
10 许昌 2 575.604
11 漯河 2 593.774
12 三门峡 2 222.016
13 南阳 3 1047.748
14 商丘 2 278.410
15 信阳 2 507.643
16 周口 2 358.474
17 驻马店 2 307.835
18 济源 2 1166.626
最终聚类中心为。
表12聚类中心值
指标 1 2 3
X1 4040 995 2128
X2 386 45 106
X3 7990 761 1122
X4 2757 711 1579
X5 1678 308 799
X6 2269 577 1207
X7 1646 252 636
X8 1996 528 1077
X9 0 3 8
X10 17 2 6

三个类别的聚类数为。
表13 三类聚类数
类别 数量
1 1.000
2 15.000
3 2.000
其他中间结果见附录。
第4章总结与展望
因子分析和聚类分析在许多领域都有广泛应用,这些解题思想相辅相成,互为补充。
在揭示、分析事物或者某种现象本质或特点时,往往会通过多个维度的指标对其进行评估测量。比如要了解某地区的综合发展情况,可通过人均GDP、固定资产投资、社会消费品零售总额、农村人均纯收入、科研机构数量、卫生机构数量等指标进行衡量。从这些量化指标中,我们可以更深入地了解分析对象,获取丰富的信息,但当维度指标过多时,数据的采集和分析就会变得困难。而且,这些众多的指标之间可能存在相关性,测量的数据也因此会有部分信息的重复,从而增加问题分析的复杂性。
为了降低数据采集和分析难度,也让测量维度更严谨合理,我们可以使用到因子分析方法,对众多维度指标进行降维。因子分析是一种常用的统计分析方法,基于降维的思想,通过探索变量之间的相关系数矩阵,根据变量的相关性大小对变量进行分组,使同组内变量间的相关性较高,不同组变量的相关性较低,而代表每组数据基本结构的新变量称为公共因子。也就是说,因子分析就是在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,这几个公共因子可以反映原来众多变量的主要信息,在减少变量个数的同时,又反映了变量之间的内在联系。比如衡量某地区综合发展情况,我们可以通过因子分析,将10个指标聚合为5个公共因子。而聚类分析的内涵在某些地方与其相似。不过聚类分析在变量量纲相差非常大时需要进行变量的标准化。并且本文章中使用的K-means聚类的分类数需要由自己设定,从实用角度讲,2~8类比较合适。聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,并且聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解。

参考文献
[1]张文璋.实用统计分析方法与SPSS应用[M].北京:电子工业出版社, 2002.
[2]张文霖.主成分分析在SPSS中的操作应用[J].市场研究, 2005(12):31-34.
[3]王志同,黄介武.湖南省各市州经济发展水平评价[J].数学理论与应用,2007(1): 106-107.[4]国家统计局.河南统计年鉴2007[M].北京:中国统计出版社,2007.
[4]张吉献. 基于主成分分析法的河南省各城市综合实力评价[J]. 河南科学, 2009, 027(001):115-118.
[5]芮林仁,吴燕博.基于SPSS的白酒行业上市企业发展质量研究[J].北方经贸,2021(07):129-133.
[6]赵璇.基于主成分-聚类分析的山东省经济状况研究[J].中国集体经济,2021(25):26-27.
[7]刘惠.基于层次聚类法的微博新闻用户聚类研究[J].现代计算机,2021(21):90-94.
[8]芮林仁,吴燕博.基于SPSS的白酒行业上市企业发展质量研究[J].北方经贸,2021(07):129-133.
[9]吴成鑫.基于主成分分析和聚类分析的城镇居民收入研究[J].黄山学院学报,2021,23(03):7-10.

附录
X1~X10因子分析:
相关性矩阵
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
X1 1.000 .945 .892 .971 .982 .973 .981 .961 .136 .821
X2 .945 1.000 .975 .908 .928 .945 .972 .936 -.016 .815
X3 .892 .975 1.000 .854 .894 .869 .946 .854 -.135 .763
X4 .971 .908 .854 1.000 .955 .939 .954 .922 .174 .811
X5 .982 .928 .894 .955 1.000 .920 .984 .902 .058 .776
X6 .973 .945 .869 .939 .920 1.000 .938 .999 .206 .838
X7 .981 .972 .946 .954 .984 .938 1.000 .921 .015 .807
X8 .961 .936 .854 .922 .902 .999 .921 1.000 .216 .831
X9 .136 -.016 -.135 .174 .058 .206 .015 .216 1.000 .008
X10 .821 .815 .763 .811 .776 .838 .807 .831 .008 1.000

成分矩阵a
成分
1 2 3 4 5
X1 .990 .056 -.057 -.085 -.055
X2 .976 -.117 -.059 .157 .038
X3 .931 -.245 -.122 .177 .155
X4 .966 .096 -.039 -.180 .020
X5 .968 -.027 -.142 -.177 .011
X6 .978 .130 .038 .085 -.133
X7 .986 -.079 -.111 -.054 .051
X8 .967 .143 .053 .117 -.165
X9 .089 .990 -.023 .045 .095
X10 .861 -.065 .494 -.042 .085
提取方法:主成分分析法。
a. 提取了 5 个成分。

成分转换矩阵
成分 1 2 3 4 5
1 .907 .398 .053 .084 .098
2 -.046 -.019 .990 -.113 .062
3 -.401 .906 -.016 -.072 .108
4 -.116 -.053 .052 .817 .560
5 -.028 .131 .116 .555 -.813
提取方法:主成分分析法。
旋转方法:凯撒正态化最大方差法。

各城市得分及因子值
城市 F1 F2 F3 F4 F5 总
郑州 3812.472 -2983.27 161.415 7638.952 -2828.791 5800.778
平顶山 910.831 -668.322 -18.893 -189.719 1157.476 1191.373
许昌 898.79 -608.83 -19.377 -927.377 1426.612 769.818
洛阳 1886.122 -1249.106 3.45 -602.89 694.373 731.949
安阳 947.417 -618.821 -9.753 -569.509 833.11 582.444
三门峡 636.346 -412.416 -6.964 -542.817 796.364 470.513
焦作 904.852 -565.18 -19.667 -1089.09 1219.66 450.575
濮阳 559.849 -377.062 -6.92 -402.21 645.532 419.189
漯河 466.194 -320.664 -18.037 -518.502 789.14 398.131
鹤壁 308.293 -193.947 -2.283 -331.403 431.742 212.402
济源 217.826 -139.846 -9.559 -449.265 552.599 171.755
新乡 1037.864 -625.033 28.052 -382.694 -20.941 37.248
驻马店 815.034 -547.639 0.326 -36.688 -205.609 25.424
开封 700.291 -475.88 -15.536 -329.131 37.659 -82.597
商丘 892.666 -567.536 -2.107 -453.684 -21.024 -151.685
周口 940.915 -610.106 -10.884 -529.978 25.626 -184.427
信阳 964.739 -578.212 20.173 -247.022 -625.544 -465.866
南阳 1421.186 -789.408 -79.276 -3572.819 1365.595 -1654.722

X1~X10聚类分析:

迭代历史记录a
迭代 聚类中心内的更改
1 2 3
1 .000 1166.626 1047.748
2 .000 .000 .000
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 3679.614。

最终聚类中心间的距离
聚类 1 2 3
1 8641.292 7488.038
2 8641.292 1803.894
3 7488.038 1803.894

ANOVA
聚类 误差 F Sig.
均方 df 均方 df
X1 5137113.950 2 98711.873 15 52.041 .000
X2 55948.800 2 490.727 15 114.012 .000
X3 24503114.089 2 216515.696 15 113.170 .000
X4 2447244.089 2 73480.140 15 33.305 .000
X5 1026029.422 2 13510.096 15 75.945 .000
X6 1585310.439 2 44214.993 15 35.855 .000
X7 989090.283 2 10775.962 15 91.787 .000
X8 1196035.550 2 39161.393 15 30.541 .000
X9 33.648 2 7.918 15 4.249 .035
X10 117.811 2 3.545 15 33.232 .000
F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

你可能感兴趣的:(笔记,算法,数据建模)