实验08 聚类分析

实验08  聚类分析

一、实验目的

完成作业,学会聚类分析方法

二、实验内容

做一下08年房价的聚类

三、实验数据准备

2008年中国31个省,市,自治区房地产业的相关统计数据。有X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅,高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积。这些变量

四、实验过程

(一)SAS程序

①最长距离法

data examination;

input province$x1-x9@@;

cards;

北京      12418      11648      19541      3813      16554      17148      6416      1335.37      1031.43                              

天津      6015      5598      11107      3571      9783      10338      9195      1252.04      1135.35                                  

河北      2779      2743      6375      2208      3692      3915      2102      2231.84      2128.86                                   

山西      2355      2253      5741      1466      6115      2867      2545      994.71      893.10                                      

内蒙古      2483      2265      4104      1690      4822      4080      2660      2396.37      2093.34                                 

辽宁      3758      3575      7265      2095      4783      6149      3888      4091.16      3731.19                                   

吉林      2507      2399      6175      1932      3256      3687      3213      1583.87      1435.73                                   

黑龙江      2832      2642      5414      1785      2804      4330      3019      1486.57      1286.62                                 

上海      8195      8115      12792      1847      11783      6610      5529      2339.29      2007.48                                 

江苏      4049      3802      7729      1922      5906      6172      2567      6091.86      5282.89                                   

浙江      6262      6144      9424      3092      9716      7446      3180      2992.2      2480.74                                    

安徽      2949      2808      4058      1731      4596      4627      2139      2785.83      2542.6                                    

福建      4384      4498      7334      2313      5386      8303      1686      1625.67      1250.00                                   

江西      2136      2022      3141      1098      2840      4039      2057      1727.6      1604.86                                    

山东      2970      2851      7256      1826      5601      4601      2440      5507.64      5039.4                                    

河南      2339      2138      3618      1372      4367      5065      1933      3191.98      2943.36                                   

湖北      3001      2898      6191      1900      5122      4863      3513      1941.62      1821.31                                   

湖南      2302      2113      4007      1388      4212      4564      1969      2655.51      2413.7                                    

广东      5953      5723      6817      2380      10554      8630      5296      4852.28      4360.45                                  

广西      2826      2634      4601      1880      4959      6077      2926      1768.04      1637.99                                   

海南      5443      5441      9058      1686      5831      5461      5157      372.44      358.72                                      

重庆      2785      2640      6322      1751      4667      5432      2489      2872.19      2669.93                                   

四川      3157      3067      7934      1266      5688      4528      2397      3501.27      3247.32                                    

贵州      2339      2122      4738      1926      3672      5967      2935      908.2      848.11                                      

云南      2680      2441      3230      1441      4860      5203      3086      1643.08      1478.25                                   

西藏      3202      3103      3547      2133      10000      4554      1200      66.49      62.08                                       

陕西      2952      2821      5589      1691      5571      5056      3149      1513.01      1426.06                                   

甘肃      1958      1851      2082      1264      2899      4008      2134      624.66      588.63                                      

青海      2460      2384      2768      1214      3271      4246      2625      147.89      141.23                                     

宁夏      2435      2215      5345      1447      3726      4243      1570      514.81      453.26                                     

新疆      2240      2100      3684      1333      5184      4156      2434      954.35      886.35                                     

;

proc print data=examination;

run;

proc distance data=examination out=Distance method=gower shape=square;

var interval(x1-x9);

run;

proc cluster data=examination method=com outtree=tree;

id province;

var x1-x9;

proc tree horizontal;

id province;

run;

②类平均聚类法

data examination;

input province$x1-x9@@;

cards;

北京      12418      11648      19541      3813      16554      17148      6416      1335.37      1031.43                              

天津      6015      5598      11107      3571      9783      10338      9195      1252.04      1135.35                                  

河北      2779      2743      6375      2208      3692      3915      2102      2231.84      2128.86                                   

山西      2355      2253      5741      1466      6115      2867      2545      994.71      893.10                                      

内蒙古      2483      2265      4104      1690      4822      4080      2660      2396.37      2093.34                                 

辽宁      3758      3575      7265      2095      4783      6149      3888      4091.16      3731.19                                   

吉林      2507      2399      6175      1932      3256      3687      3213      1583.87      1435.73                                   

黑龙江      2832      2642      5414      1785      2804      4330      3019      1486.57      1286.62                                  

上海      8195      8115      12792      1847      11783      6610      5529      2339.29      2007.48                                 

江苏      4049      3802      7729      1922      5906      6172      2567      6091.86      5282.89                                    

浙江      6262      6144      9424      3092      9716      7446      3180      2992.2      2480.74                                    

安徽      2949      2808      4058      1731      4596      4627      2139      2785.83      2542.6                                    

福建      4384      4498      7334      2313      5386      8303      1686      1625.67      1250.00                                   

江西      2136      2022      3141      1098      2840      4039      2057      1727.6      1604.86                                    

山东      2970      2851      7256      1826      5601      4601      2440      5507.64      5039.4                                    

河南      2339      2138      3618      1372      4367      5065      1933      3191.98      2943.36                                   

湖北      3001      2898      6191      1900      5122      4863      3513      1941.62      1821.31                                   

湖南      2302      2113      4007      1388      4212      4564      1969      2655.51      2413.7                                    

广东      5953      5723      6817      2380      10554      8630      5296      4852.28      4360.45                                  

广西      2826      2634      4601      1880      4959      6077      2926      1768.04      1637.99                                   

海南      5443      5441      9058      1686      5831      5461      5157      372.44      358.72                                     

重庆      2785      2640      6322      1751      4667      5432      2489      2872.19      2669.93                                   

四川      3157      3067      7934      1266      5688      4528      2397      3501.27      3247.32                                   

贵州      2339      2122      4738      1926      3672      5967      2935      908.2      848.11                                      

云南      2680      2441      3230      1441      4860      5203      3086      1643.08      1478.25                                    

西藏      3202      3103      3547      2133      10000      4554      1200      66.49      62.08                                      

陕西      2952      2821      5589      1691      5571      5056      3149      1513.01      1426.06                                   

甘肃      1958      1851      2082      1264      2899      4008      2134      624.66      588.63                                      

青海      2460      2384      2768      1214      3271      4246      2625      147.89      141.23                                     

宁夏      2435      2215      5345      1447      3726      4243      1570      514.81      453.26                                      

新疆      2240      2100      3684      1333      5184      4156      2434      954.35      886.35                                     

;

Proc Cluster Data = examination Method = average std;

  ID province;

  Var x1-x9;

Proc Tree horizontal;

Run;

③最小距离法

data examination;

input province$x1-x9@@;

cards;

北京      12418      11648      19541      3813      16554      17148      6416      1335.37      1031.43                              

天津      6015      5598      11107      3571      9783      10338      9195      1252.04      1135.35                                 

河北      2779      2743      6375      2208      3692      3915      2102      2231.84      2128.86                                   

山西      2355      2253      5741      1466      6115      2867      2545      994.71      893.10                                     

内蒙古      2483      2265      4104      1690      4822      4080      2660      2396.37      2093.34                                 

辽宁      3758      3575      7265      2095      4783      6149      3888      4091.16      3731.19                                   

吉林      2507      2399      6175      1932      3256      3687      3213      1583.87      1435.73                                   

黑龙江      2832      2642      5414      1785      2804      4330      3019      1486.57      1286.62                                 

上海      8195      8115      12792      1847      11783      6610      5529      2339.29      2007.48                                  

江苏      4049      3802      7729      1922      5906      6172      2567      6091.86      5282.89                                   

浙江      6262      6144      9424      3092      9716      7446      3180      2992.2      2480.74                                     

安徽      2949      2808      4058      1731      4596      4627      2139      2785.83      2542.6                                    

福建      4384      4498      7334      2313      5386      8303      1686      1625.67      1250.00                                   

江西      2136      2022      3141      1098      2840      4039      2057      1727.6      1604.86                                    

山东      2970      2851      7256      1826      5601      4601      2440      5507.64      5039.4                                    

河南      2339      2138      3618      1372      4367      5065      1933      3191.98      2943.36                                   

湖北      3001      2898      6191      1900      5122      4863      3513      1941.62      1821.31                                   

湖南      2302      2113      4007      1388      4212      4564      1969      2655.51      2413.7                                    

广东      5953      5723      6817      2380      10554      8630      5296      4852.28      4360.45                                  

广西      2826      2634      4601      1880      4959      6077      2926      1768.04      1637.99                                   

海南      5443      5441      9058      1686      5831      5461      5157      372.44      358.72                                     

重庆      2785      2640      6322      1751      4667      5432      2489      2872.19      2669.93                                   

四川      3157      3067      7934      1266      5688      4528      2397      3501.27      3247.32                                   

贵州      2339      2122      4738      1926      3672      5967      2935      908.2      848.11                                      

云南      2680      2441      3230      1441      4860      5203      3086      1643.08      1478.25                                   

西藏      3202      3103      3547      2133      10000      4554      1200      66.49      62.08                                      

陕西      2952      2821      5589      1691      5571      5056      3149      1513.01      1426.06                                   

甘肃      1958      1851      2082      1264      2899      4008      2134      624.66      588.63                                      

青海      2460      2384      2768      1214      3271      4246      2625      147.89      141.23                                     

宁夏      2435      2215      5345      1447      3726      4243      1570      514.81      453.26                                      

新疆      2240      2100      3684      1333      5184      4156      2434      954.35      886.35                                     

;

Proc Cluster Method = single std;

  ID province;

  Var x1-x9;

Proc Tree horizontal;

Run;

(二)SAS运行结果

①最长距离法

SAS 系统

Obs

province

x1

x2

x3

x4

x5

x6

x7

x8

x9

1

北京

12418

11648

19541

3813

16554

17148

6416

1335.37

1031.43

2

天津

6015

5598

11107

3571

9783

10338

9195

1252.04

1135.35

3

河北

2779

2743

6375

2208

3692

3915

2102

2231.84

2128.86

4

山西

2355

2253

5741

1466

6115

2867

2545

994.71

893.10

5

内蒙古

2483

2265

4104

1690

4822

4080

2660

2396.37

2093.34

6

辽宁

3758

3575

7265

2095

4783

6149

3888

4091.16

3731.19

7

吉林

2507

2399

6175

1932

3256

3687

3213

1583.87

1435.73

8

黑龙江

2832

2642

5414

1785

2804

4330

3019

1486.57

1286.62

9

上海

8195

8115

12792

1847

11783

6610

5529

2339.29

2007.48

10

江苏

4049

3802

7729

1922

5906

6172

2567

6091.86

5282.89

11

浙江

6262

6144

9424

3092

9716

7446

3180

2992.20

2480.74

12

安徽

2949

2808

4058

1731

4596

4627

2139

2785.83

2542.60

13

福建

4384

4498

7334

2313

5386

8303

1686

1625.67

1250.00

14

江西

2136

2022

3141

1098

2840

4039

2057

1727.60

1604.86

15

山东

2970

2851

7256

1826

5601

4601

2440

5507.64

5039.40

16

河南

2339

2138

3618

1372

4367

5065

1933

3191.98

2943.36

17

湖北

3001

2898

6191

1900

5122

4863

3513

1941.62

1821.31

18

湖南

2302

2113

4007

1388

4212

4564

1969

2655.51

2413.70

19

广东

5953

5723

6817

2380

10554

8630

5296

4852.28

4360.45

20

广西

2826

2634

4601

1880

4959

6077

2926

1768.04

1637.99

21

海南

5443

5441

9058

1686

5831

5461

5157

372.44

358.72

22

重庆

2785

2640

6322

1751

4667

5432

2489

2872.19

2669.93

23

四川

3157

3067

7934

1266

5688

4528

2397

3501.27

3247.32

24

贵州

2339

2122

4738

1926

3672

5967

2935

908.20

848.11

25

云南

2680

2441

3230

1441

4860

5203

3086

1643.08

1478.25

26

西藏

3202

3103

3547

2133

10000

4554

1200

66.49

62.08

27

陕西

2952

2821

5589

1691

5571

5056

3149

1513.01

1426.06

28

甘肃

1958

1851

2082

1264

2899

4008

2134

624.66

588.63

29

青海

2460

2384

2768

1214

3271

4246

2625

147.89

141.23

30

宁夏

2435

2215

5345

1447

3726

4243

1570

514.81

453.26

31

新疆

2240

2100

3684

1333

5184

4156

2434

954.35

886.35

SAS 系统

CLUSTER 过程

最长距离聚类分析

协方差矩阵的特征值

 

特征值

差分

比例

累积

1

35772032.0

31681669.2

0.7928

0.7928

2

4090362.8

1986540.1

0.0906

0.8834

3

2103822.7

587544.6

0.0466

0.9300

4

1516278.1

354496.6

0.0336

0.9636

5

1161781.5

778886.6

0.0257

0.9894

6

382894.9

292788.3

0.0085

0.9979

7

90106.6

86369.7

0.0020

0.9999

8

3736.9

1574.2

0.0001

1.0000

9

2162.8

0.0000

1.0000

根均方总样本标准差

2239.126

观测之间的平均距离

7472.306

聚类历史

聚类数

连接聚类

频数

Norm
Maximum
Distance

结值

30

河南

湖南

2

0.1337

29

湖北

陕西

2

0.142

28

吉林

黑龙江

2

0.1613

27

内蒙古

安徽

2

0.1634

26

甘肃

青海

2

0.1831

25

广西

云南

2

0.2307

24

CL27

CL30

4

0.2481

23

河北

CL28

3

0.2737

22

江苏

山东

2

0.3075

21

CL29

重庆

3

0.3107

20

江西

CL26

3

0.3161

19

CL25

贵州

3

0.319

18

宁夏

新疆

2

0.3301

17

辽宁

四川

2

0.3787

16

山西

CL18

3

0.4046

15

CL23

CL21

6

0.4152

14

CL24

CL19

7

0.4911

13

CL17

CL22

4

0.5259

12

CL15

CL16

9

0.5433

11

CL14

CL20

10

0.6028

10

浙江

广东

2

0.6155

9

福建

海南

2

0.709

8

CL12

CL11

19

0.7825

7

天津

上海

2

0.948

6

CL8

西藏

20

1.059

5

CL7

CL10

4

1.0725

4

CL13

CL9

6

1.1398

3

CL6

CL4

26

1.38

2

CL5

CL3

30

2.3

1

北京

CL2

31

4.0033

实验08 聚类分析_第1张图片


TREE 过程

最长距离聚类分析

实验08 聚类分析_第2张图片

②类平均聚类法

CLUSTER 过程

类平均聚类分析

相关矩阵的特征值

特征值

差分

比例

累积

1

5.84157478

3.84690740

0.6491

0.6491

2

1.99466738

1.54852927

0.2216

0.8707

3

0.44613811

0.11296630

0.0496

0.9203

4

0.33317182

0.14208589

0.0370

0.9573

5

0.19108593

0.04692393

0.0212

0.9785

6

0.14416199

0.09684490

0.0160

0.9945

7

0.04731709

0.04623462

0.0053

0.9998

8

0.00108248

0.00028206

0.0001

0.9999

9

0.00080041

0.0001

1.0000

已将数据标准化成均值为 0 且方差为 1

根均方总样本标准差

1

观测之间的根均方距离

4.242641

聚类历史

聚类数

连接聚类

频数

Norm RMS
Distance

结值

30

吉林

黑龙江

2

0.1172

29

河南

湖南

2

0.1367

28

湖北

陕西

2

0.1462

27

内蒙古

安徽

2

0.1568

26

甘肃

青海

2

0.1642

25

CL28

广西

3

0.1703

24

山西

新疆

2

0.202

23

CL27

CL29

4

0.2091

22

CL25

云南

4

0.2373

21

CL23

重庆

5

0.238

20

江苏

山东

2

0.2396

19

CL30

贵州

3

0.2519

18

CL24

宁夏

3

0.2584

17

CL19

CL22

7

0.2661

16

CL18

CL26

5

0.3034

15

河北

CL21

6

0.3368

14

CL16

江西

6

0.3389

13

CL15

CL17

13

0.3743

12

辽宁

四川

2

0.4374

11

CL13

CL14

19

0.4611

10

CL12

CL20

4

0.5131

9

CL11

福建

20

0.6372

8

浙江

广东

2

0.6377

7

CL9

西藏

21

0.6979

6

上海

CL8

3

0.7816

5

CL7

海南

22

0.7878

4

CL5

CL10

26

0.8819

3

天津

CL6

4

1.0439

2

CL3

CL4

30

1.2593

1

北京

CL2

31

2.3728

实验08 聚类分析_第3张图片

TREE 过程

类平均聚类分析

实验08 聚类分析_第4张图片

③最小距离聚类法

CLUSTER 过程

最短距离聚类分析

相关矩阵的特征值

 

特征值

差分

比例

累积

1

5.84157478

3.84690740

0.6491

0.6491

2

1.99466738

1.54852927

0.2216

0.8707

3

0.44613811

0.11296630

0.0496

0.9203

4

0.33317182

0.14208589

0.0370

0.9573

5

0.19108593

0.04692393

0.0212

0.9785

6

0.14416199

0.09684490

0.0160

0.9945

7

0.04731709

0.04623462

0.0053

0.9998

8

0.00108248

0.00028206

0.0001

0.9999

9

0.00080041

0.0001

1.0000

已将数据标准化成均值为 0 且方差为 1

根均方总样本标准差

1

观测之间的平均距离

3.52209

聚类历史

聚类数

连接聚类

频数

Norm
Minimum
Distance

结值

30

吉林

黑龙江

2

0.1412

29

河南

湖南

2

0.1647

28

湖北

陕西

2

0.1761

27

CL28

广西

3

0.1883

26

内蒙古

安徽

2

0.1889

25

甘肃

青海

2

0.1978

24

CL26

CL29

4

0.2069

23

CL24

重庆

5

0.218

22

CL27

云南

4

0.2431

21

山西

新疆

2

0.2434

20

CL30

CL22

6

0.2603

19

CL21

CL20

8

0.2604

18

CL19

贵州

9

0.2714

17

CL18

CL25

11

0.2746

16

CL17

CL23

16

0.2755

15

CL16

宁夏

17

0.2786

14

江苏

山东

2

0.2886

13

河北

CL15

18

0.3074

12

CL13

江西

19

0.3194

11

CL12

四川

20

0.3432

10

CL11

辽宁

21

0.479

9

CL10

CL14

23

0.5277

8

CL9

福建

24

0.5494

7

CL8

西藏

25

0.6495

6

CL7

海南

26

0.7267

5

浙江

广东

2

0.7682

4

CL6

CL5

28

0.7915

3

CL4

上海

29

0.8678

2

天津

CL3

30

1.1976

1

北京

CL2

31

1.7251

实验08 聚类分析_第5张图片


TREE 过程

最短距离聚类分析

实验08 聚类分析_第6张图片

(三)运行结果分析

最小距离和类平均聚类法在这个数据样本下都不太好用,聚类结果比较没特色,都只能一眼看出北京处于独一类,而对另外的类别较难划分。

    从最长距离聚类法来看,可以划分为四类。第一类是国家政治经济中心首都北京,房价独一档高;第二类是经济发达地区——广东,浙江,上海和天津;第三类是沿河沿江沿海地区——福建,山东,江苏,海南,四川,辽宁;第四类是中西部内地地区——西藏,青海,江西,广西,陕西,河北,吉林由于种种原因房价较低。

五、实验感想

做完聚类分析后,似乎解决了做主成分分析法时遗留的看聚类图看不懂的问题。

然后我觉得聚类分析在我以后写课题论文啥的时候应该很有帮助,可以增加文章的可读性,使得更加丰富。

你可能感兴趣的:(SAS操作分享,大数据,sas)