一、实验目的:
使用《统计局数据库》我们使用的变量有规模以上工业企业R&D人员全时当量(人年),规模以上工业企业R&D经费(万元),规模以上工业企业新产品项目数(项),规模以上工业企业开发新产品经费(万元)支出,技术市场成交额(亿元),国内发明专利申请授权量(项)以地区来标识全国31个地区,并以其他6个变量进行聚类分析,即对地区进行聚类。
二、实验数据来源:
来自于《国家统计局数据库》
中国各省市工业科技研发情况 |
||||||
地区 |
规模以上工业企业R&D人员全时当量(人年) |
规模以上工业企业R&D经费(万元) |
规模以上工业企业新产品项目数(项) |
规模以上工业企业开发新产品经费(万元) |
技术市场成交额(亿元) |
国内发明专利申请授权量(项) |
北京市 |
51143 |
2548433 |
10304 |
3226374 |
3940.98 |
40602 |
天津市 |
78336 |
3499551 |
10767 |
2856231 |
552.64 |
5185 |
河北省 |
82971 |
3086608 |
8428 |
2626889 |
59 |
4247 |
山西省 |
29450 |
976283 |
2206 |
689735 |
42.56 |
2411 |
内蒙古自治区 |
30126 |
1279853 |
1509 |
727898 |
12.05 |
871 |
辽宁省 |
49254 |
2420637 |
6910 |
2391496 |
323.22 |
6731 |
吉林省 |
23469 |
908602 |
2470 |
1243953 |
116.42 |
2428 |
黑龙江省 |
32219 |
884925 |
2677 |
696173 |
125.81 |
4345 |
上海市 |
98671 |
4900778 |
15046 |
6227654 |
780.99 |
20086 |
江苏省 |
451885 |
16575418 |
64029 |
19090345 |
635.64 |
40952 |
浙江省 |
321845 |
9357877 |
63124 |
10041634 |
198.37 |
26576 |
安徽省 |
99451 |
3709224 |
19920 |
4432081 |
217.37 |
15292 |
福建省 |
102250 |
3882632 |
11833 |
3516871 |
43.22 |
7170 |
江西省 |
34924 |
1797561 |
8371 |
2227922 |
79.01 |
1914 |
山东省 |
241761 |
14150035 |
32952 |
12521655 |
395.95 |
19404 |
河南省 |
132731 |
4096962 |
10385 |
3370816 |
58.71 |
6811 |
湖北省 |
96340 |
4459622 |
10450 |
4076507 |
903.84 |
8517 |
湖南省 |
86440 |
3929647 |
7632 |
3585267 |
105.63 |
6967 |
广东省 |
423730 |
16762749 |
66843 |
23097271 |
758.17 |
38626 |
广西壮族自治区 |
19402 |
827248 |
3217 |
905498 |
33.99 |
5159 |
海南省 |
2688 |
79819 |
512 |
117659 |
3.44 |
383 |
重庆市 |
47392 |
2374859 |
9243 |
3025777 |
147.19 |
5044 |
四川省 |
60146 |
2572607 |
8846 |
2523694 |
299.3 |
10350 |
贵州省 |
15774 |
556853 |
2231 |
550466 |
20.44 |
2036 |
云南省 |
17166 |
741847 |
3834 |
884333 |
58.26 |
2125 |
西藏自治区 |
208 |
4003 |
24 |
3630 |
33 |
|
陕西省 |
45362 |
1844216 |
4506 |
1898166 |
802.79 |
7503 |
甘肃省 |
12610 |
509228 |
1222 |
397701 |
150.66 |
1308 |
青海省 |
1750 |
77940 |
126 |
62146 |
56.92 |
271 |
宁夏回族自治区 |
5686 |
239624 |
1102 |
202032 |
4.05 |
560 |
新疆维吾尔自治区 |
7310 |
390946 |
1153 |
444784 |
4.28 |
910 |
三、实验方法
四、实验分析结果
1、系统聚类:
在结果输出窗口中我们可以看到聚类树形图:
从树形图可以清楚地看到,若将31个地区分为3类,则地区21、29、30、28、31、24、20、25、4、8、5、7、13、18、17、12、14、27、2、3、6、23、1、22为一类,9为一类,地区10、19、11、15为一类。即北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、湖北、湖南、广西、重庆、贵州、云南、陕西、甘肃、新疆、海南、西藏、青海、宁夏为一类,上海为一类,江苏、山东、广东、浙江为一类。
2、K均值聚类
(1)给出初始类中心。
初始聚类中心 |
||
聚类 |
||
1 |
2 |
|
规模以上工业企业R&D人员全时当量(人年) |
1750 |
423730 |
规模以上工业企业R&D经费(万元) |
77940 |
16762749 |
规模以上工业企业新产品项目数(项) |
126 |
66843 |
规模以上工业企业开发新产品经费(万元) |
62146 |
23097271 |
技术市场成交额(亿元) |
271 |
38626 |
(2)给出每次迭代结束后类中心的变动。
迭代历史记录a |
||
迭代 |
聚类中心内的更改 |
|
1 |
2 |
|
1 |
3172824.526 |
4949927.888 |
2 |
402302.886 |
2610530.021 |
3 |
.000 |
.000 |
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 28446156.595。 |
(3)给出各观测量所属的类及与所属类中心的距离。
聚类成员 |
|||
案例号 |
地区 |
聚类 |
距离 |
1 |
北京市 |
1 |
1302644.178 |
2 |
天津市 |
1 |
1689916.694 |
3 |
河北省 |
1 |
1217782.693 |
4 |
山西省 |
1 |
1704535.045 |
5 |
内蒙古自治区 |
1 |
1503630.507 |
6 |
辽宁省 |
1 |
534137.266 |
7 |
吉林省 |
1 |
1366769.227 |
8 |
黑龙江省 |
1 |
1757166.494 |
9 |
上海市 |
1 |
5085632.661 |
10 |
江苏省 |
2 |
3744573.922 |
11 |
浙江省 |
2 |
7831590.064 |
12 |
安徽省 |
1 |
2931337.267 |
13 |
福建省 |
1 |
2378552.477 |
14 |
江西省 |
1 |
297078.007 |
15 |
山东省 |
2 |
3668583.189 |
16 |
河南省 |
1 |
2468451.373 |
17 |
湖北省 |
1 |
3179269.553 |
18 |
湖南省 |
1 |
2457744.703 |
19 |
广东省 |
2 |
7365787.146 |
20 |
广西壮族自治区 |
1 |
1645041.041 |
21 |
海南省 |
1 |
2730169.639 |
22 |
重庆市 |
1 |
1051493.867 |
23 |
四川省 |
1 |
735648.196 |
24 |
贵州省 |
1 |
2086662.042 |
25 |
云南省 |
1 |
1722232.991 |
26 |
西藏自治区 |
. |
. |
27 |
陕西省 |
1 |
225081.931 |
28 |
甘肃省 |
1 |
2230065.088 |
29 |
青海省 |
1 |
2770771.264 |
30 |
宁夏回族自治区 |
1 |
2557661.962 |
31 |
新疆维吾尔自治区 |
1 |
2278975.965 |
(4)给出聚类结果形成的类中心的各变量值。
最终聚类中心 |
||
聚类 |
||
1 |
2 |
|
规模以上工业企业R&D人员全时当量(人年) |
48579 |
359805 |
规模以上工业企业R&D经费(万元) |
2022943 |
14211520 |
规模以上工业企业新产品项目数(项) |
6342 |
56737 |
规模以上工业企业开发新产品经费(万元) |
2034928 |
16187726 |
技术市场成交额(亿元) |
6509 |
31390 |
结合聚类成员表和最终聚类中心表,我们可以看出31个地区被分成2类。第一类包括:北京市、天津市、河北省、山西省、内蒙古自治区、辽宁省、吉林省、黑龙江省、上海市安徽省、福建省、江西省河南省、湖北省、湖南省广西壮族自治区、海南省、重庆市、四川省、贵州省、云南省、西藏自治区、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。第二类包括江苏省、浙江省、广东省。
五、实验结果解释
由实验分析结果我们可以得到:
用系统聚类法将31个地区分成3类,结果是若将31个地区分为3类,则地区21、29、30、28、31、24、20、25、4、8、5、7、13、18、17、12、14、27、2、3、6、23、1、22为一类,9为一类,地区10、19、11、15为一类。即北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、湖北、湖南、广西、重庆、贵州、云南、陕西、甘肃、新疆、海南、西藏、青海、宁夏为一类,上海为一类,江苏、山东、广东、浙江为一类。
不同点只在于系统聚类法分为3类,而K均值聚类法分为2类,其余两种方法的结果一致。
在此,我们采用K均值聚类法的结果,我们可以看出31个地区被分成2类。第一类包括:北京市、天津市、河北省、山西省、内蒙古自治区、辽宁省、吉林省、黑龙江省、上海市安徽省、福建省、江西省河南省、湖北省、湖南省广西壮族自治区、海南省、重庆市、四川省、贵州省、云南省、西藏自治区、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。第二类包括江苏省、浙江省、广东省。