关于我国各省市工业科技研发现状的探讨 ——基于聚类分析的基本判断

一、实验目的:

使用《统计局数据库》我们使用的变量有规模以上工业企业R&D人员全时当量(人年),规模以上工业企业R&D经费(万元),规模以上工业企业新产品项目数(项),规模以上工业企业开发新产品经费(万元)支出,技术市场成交额(亿元),国内发明专利申请授权量(项)以地区来标识全国31个地区,并以其他6个变量进行聚类分析,即对地区进行聚类。

二、实验数据来源:

来自于《国家统计局数据库》

中国各省市工业科技研发情况

地区

规模以上工业企业R&D人员全时当量(人年)

规模以上工业企业R&D经费(万元)

规模以上工业企业新产品项目数(项)

规模以上工业企业开发新产品经费(万元)

技术市场成交额(亿元)

国内发明专利申请授权量(项)

北京市

51143

2548433

10304

3226374

3940.98

40602

天津市

78336

3499551

10767

2856231

552.64

5185

河北省

82971

3086608

8428

2626889

59

4247

山西省

29450

976283

2206

689735

42.56

2411

内蒙古自治区

30126

1279853

1509

727898

12.05

871

辽宁省

49254

2420637

6910

2391496

323.22

6731

吉林省

23469

908602

2470

1243953

116.42

2428

黑龙江省

32219

884925

2677

696173

125.81

4345

上海市

98671

4900778

15046

6227654

780.99

20086

江苏省

451885

16575418

64029

19090345

635.64

40952

浙江省

321845

9357877

63124

10041634

198.37

26576

安徽省

99451

3709224

19920

4432081

217.37

15292

福建省

102250

3882632

11833

3516871

43.22

7170

江西省

34924

1797561

8371

2227922

79.01

1914

山东省

241761

14150035

32952

12521655

395.95

19404

河南省

132731

4096962

10385

3370816

58.71

6811

湖北省

96340

4459622

10450

4076507

903.84

8517

湖南省

86440

3929647

7632

3585267

105.63

6967

广东省

423730

16762749

66843

23097271

758.17

38626

广西壮族自治区

19402

827248

3217

905498

33.99

5159

海南省

2688

79819

512

117659

3.44

383

重庆市

47392

2374859

9243

3025777

147.19

5044

四川省

60146

2572607

8846

2523694

299.3

10350

贵州省

15774

556853

2231

550466

20.44

2036

云南省

17166

741847

3834

884333

58.26

2125

西藏自治区

208

4003

24

3630

33

陕西省

45362

1844216

4506

1898166

802.79

7503

甘肃省

12610

509228

1222

397701

150.66

1308

青海省

1750

77940

126

62146

56.92

271

宁夏回族自治区

5686

239624

1102

202032

4.05

560

新疆维吾尔自治区

7310

390946

1153

444784

4.28

910

三、实验方法

  1. 系统聚类法
  1. 在SPSS窗口中选择分析,再选择分类,再选择系统聚类,调出系统聚类分析主界面,并将上述8个变量移入变量框中,在聚类框中选择个案单选按钮,即对地区进行聚类。在输出框里选择统计量和图复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
  2. 点击统计量按钮,设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击继续,返回主界面。
  3. 点击绘制按钮,设置结果输出窗口中给出的聚类分析统计图。选中树状图复选框和冰柱图栏中的无单选按钮,即只给出聚类树形图,而不给出冰柱图。单击继续按钮,返回主界面。
  4. 点击方法按钮,设置系统聚类的方法选项。这里我们仍然沿用系统默认选项。单击继续按钮,返回主界面。
  5. 点击保存按钮,指定保存在数据文件中的用于表明聚类结果的新变量,这里我们选择单一方案,并在聚类数中输入3,表明将地区分成3类的聚类结果。点击继续按钮,返回主界面。
  6. 点击确定按钮,运行系统聚类分析过程。
  1. K均值聚类
  1.   在SPSS窗口中选择分析,再选择分类,再选择K均值聚类,调出K均值聚类分析主界面,并将上述8个变量移入变量框中,将标志变量地区移入个案标记依据框中。在方法框中选择迭代与分类,即使用K均值算法不断计算新的类中心,并替换旧的类中心。在聚类数后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将31个地区分为3类。
  2.   点击迭代按钮,对迭代参数进行设置。这里我们选择系统默认值,点击继续按钮,返回主界面。
  3.   点击保存按钮,设置保存在数据文件中的用于表明聚类结果的新变量。其中聚类成员选项用于建立一个代表聚类结果的变量,与聚类中心的距离选项建立哟个新变量,代表各观测量与其所属类中心的欧几里得距离。我们将两个复选框都选中,点击继续按钮返回。
  4.   点击选项按钮,指定要计算的统计量。选中初始聚类中心和每个个案的聚类信息复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击继续按钮返回。
  5.   点击确定按钮,运行K均值聚类分析过程。

四、实验分析结果

1、系统聚类:

在结果输出窗口中我们可以看到聚类树形图:

关于我国各省市工业科技研发现状的探讨 ——基于聚类分析的基本判断_第1张图片

 

从树形图可以清楚地看到,若将31个地区分为3类,则地区21、29、30、28、31、24、20、25、4、8、5、7、13、18、17、12、14、27、2、3、6、23、1、22为一类,9为一类,地区10、19、11、15为一类。即北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、湖北、湖南、广西、重庆、贵州、云南、陕西、甘肃、新疆、海南、西藏、青海、宁夏为一类,上海为一类,江苏、山东、广东、浙江为一类。

2、K均值聚类

(1)给出初始类中心。

初始聚类中心

聚类

1

2

规模以上工业企业R&D人员全时当量(人年)

1750

423730

规模以上工业企业R&D经费(万元)

77940

16762749

规模以上工业企业新产品项目数(项)

126

66843

规模以上工业企业开发新产品经费(万元)

62146

23097271

技术市场成交额(亿元)

271

38626

(2)给出每次迭代结束后类中心的变动。

迭代历史记录a

迭代

聚类中心内的更改

1

2

1

3172824.526

4949927.888

2

402302.886

2610530.021

3

.000

.000

a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 28446156.595。

(3)给出各观测量所属的类及与所属类中心的距离。

聚类成员

案例号

地区

聚类

距离

1

北京市

1

1302644.178

2

天津市

1

1689916.694

3

河北省

1

1217782.693

4

山西省

1

1704535.045

5

内蒙古自治区

1

1503630.507

6

辽宁省

1

534137.266

7

吉林省

1

1366769.227

8

黑龙江省

1

1757166.494

9

上海市

1

5085632.661

10

江苏省

2

3744573.922

11

浙江省

2

7831590.064

12

安徽省

1

2931337.267

13

福建省

1

2378552.477

14

江西省

1

297078.007

15

山东省

2

3668583.189

16

河南省

1

2468451.373

17

湖北省

1

3179269.553

18

湖南省

1

2457744.703

19

广东省

2

7365787.146

20

广西壮族自治区

1

1645041.041

21

海南省

1

2730169.639

22

重庆市

1

1051493.867

23

四川省

1

735648.196

24

贵州省

1

2086662.042

25

云南省

1

1722232.991

26

西藏自治区

.

.

27

陕西省

1

225081.931

28

甘肃省

1

2230065.088

29

青海省

1

2770771.264

30

宁夏回族自治区

1

2557661.962

31

新疆维吾尔自治区

1

2278975.965

(4)给出聚类结果形成的类中心的各变量值。

最终聚类中心

聚类

1

2

规模以上工业企业R&D人员全时当量(人年)

48579

359805

规模以上工业企业R&D经费(万元)

2022943

14211520

规模以上工业企业新产品项目数(项)

6342

56737

规模以上工业企业开发新产品经费(万元)

2034928

16187726

技术市场成交额(亿元)

6509

31390

结合聚类成员表和最终聚类中心表,我们可以看出31个地区被分成2类。第一类包括:北京市、天津市、河北省、山西省、内蒙古自治区、辽宁省、吉林省、黑龙江省、上海市安徽省、福建省、江西省河南省、湖北省、湖南省广西壮族自治区、海南省、重庆市、四川省、贵州省、云南省、西藏自治区、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。第二类包括江苏省、浙江省、广东省。

五、实验结果解释

由实验分析结果我们可以得到:

用系统聚类法将31个地区分成3类,结果是若将31个地区分为3类,则地区21、29、30、28、31、24、20、25、4、8、5、7、13、18、17、12、14、27、2、3、6、23、1、22为一类,9为一类,地区10、19、11、15为一类。即北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、湖北、湖南、广西、重庆、贵州、云南、陕西、甘肃、新疆、海南、西藏、青海、宁夏为一类,上海为一类,江苏、山东、广东、浙江为一类。

不同点只在于系统聚类法分为3类,而K均值聚类法分为2类,其余两种方法的结果一致。

在此,我们采用K均值聚类法的结果,我们可以看出31个地区被分成2类。第一类包括:北京市、天津市、河北省、山西省、内蒙古自治区、辽宁省、吉林省、黑龙江省、上海市安徽省、福建省、江西省河南省、湖北省、湖南省广西壮族自治区、海南省、重庆市、四川省、贵州省、云南省、西藏自治区、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。第二类包括江苏省、浙江省、广东省。

你可能感兴趣的:(科技,聚类,数据挖掘)