实验08 聚类分析
一、实验目的
完成作业,学会聚类分析方法
二、实验内容
做一下08年房价的聚类
三、实验数据准备
2008年中国31个省,市,自治区房地产业的相关统计数据。有X1:房屋平均销售价格;X2:住宅平均销售价格;X3:别墅,高档公寓平均销售价格;X4:经济适用房平均销售价格;X5:办公楼平均销售价格X6:商业营业用房平均销售价格;X7:其他平均销售价格;X8:商品房销售面积;X9:住宅销售面积。这些变量
四、实验过程
(一)SAS程序
①最长距离法
data examination;
input province$x1-x9@@;
cards;
北京 12418 11648 19541 3813 16554 17148 6416 1335.37 1031.43
天津 6015 5598 11107 3571 9783 10338 9195 1252.04 1135.35
河北 2779 2743 6375 2208 3692 3915 2102 2231.84 2128.86
山西 2355 2253 5741 1466 6115 2867 2545 994.71 893.10
内蒙古 2483 2265 4104 1690 4822 4080 2660 2396.37 2093.34
辽宁 3758 3575 7265 2095 4783 6149 3888 4091.16 3731.19
吉林 2507 2399 6175 1932 3256 3687 3213 1583.87 1435.73
黑龙江 2832 2642 5414 1785 2804 4330 3019 1486.57 1286.62
上海 8195 8115 12792 1847 11783 6610 5529 2339.29 2007.48
江苏 4049 3802 7729 1922 5906 6172 2567 6091.86 5282.89
浙江 6262 6144 9424 3092 9716 7446 3180 2992.2 2480.74
安徽 2949 2808 4058 1731 4596 4627 2139 2785.83 2542.6
福建 4384 4498 7334 2313 5386 8303 1686 1625.67 1250.00
江西 2136 2022 3141 1098 2840 4039 2057 1727.6 1604.86
山东 2970 2851 7256 1826 5601 4601 2440 5507.64 5039.4
河南 2339 2138 3618 1372 4367 5065 1933 3191.98 2943.36
湖北 3001 2898 6191 1900 5122 4863 3513 1941.62 1821.31
湖南 2302 2113 4007 1388 4212 4564 1969 2655.51 2413.7
广东 5953 5723 6817 2380 10554 8630 5296 4852.28 4360.45
广西 2826 2634 4601 1880 4959 6077 2926 1768.04 1637.99
海南 5443 5441 9058 1686 5831 5461 5157 372.44 358.72
重庆 2785 2640 6322 1751 4667 5432 2489 2872.19 2669.93
四川 3157 3067 7934 1266 5688 4528 2397 3501.27 3247.32
贵州 2339 2122 4738 1926 3672 5967 2935 908.2 848.11
云南 2680 2441 3230 1441 4860 5203 3086 1643.08 1478.25
西藏 3202 3103 3547 2133 10000 4554 1200 66.49 62.08
陕西 2952 2821 5589 1691 5571 5056 3149 1513.01 1426.06
甘肃 1958 1851 2082 1264 2899 4008 2134 624.66 588.63
青海 2460 2384 2768 1214 3271 4246 2625 147.89 141.23
宁夏 2435 2215 5345 1447 3726 4243 1570 514.81 453.26
新疆 2240 2100 3684 1333 5184 4156 2434 954.35 886.35
;
proc print data=examination;
run;
proc distance data=examination out=Distance method=gower shape=square;
var interval(x1-x9);
run;
proc cluster data=examination method=com outtree=tree;
id province;
var x1-x9;
proc tree horizontal;
id province;
run;
②类平均聚类法
data examination;
input province$x1-x9@@;
cards;
北京 12418 11648 19541 3813 16554 17148 6416 1335.37 1031.43
天津 6015 5598 11107 3571 9783 10338 9195 1252.04 1135.35
河北 2779 2743 6375 2208 3692 3915 2102 2231.84 2128.86
山西 2355 2253 5741 1466 6115 2867 2545 994.71 893.10
内蒙古 2483 2265 4104 1690 4822 4080 2660 2396.37 2093.34
辽宁 3758 3575 7265 2095 4783 6149 3888 4091.16 3731.19
吉林 2507 2399 6175 1932 3256 3687 3213 1583.87 1435.73
黑龙江 2832 2642 5414 1785 2804 4330 3019 1486.57 1286.62
上海 8195 8115 12792 1847 11783 6610 5529 2339.29 2007.48
江苏 4049 3802 7729 1922 5906 6172 2567 6091.86 5282.89
浙江 6262 6144 9424 3092 9716 7446 3180 2992.2 2480.74
安徽 2949 2808 4058 1731 4596 4627 2139 2785.83 2542.6
福建 4384 4498 7334 2313 5386 8303 1686 1625.67 1250.00
江西 2136 2022 3141 1098 2840 4039 2057 1727.6 1604.86
山东 2970 2851 7256 1826 5601 4601 2440 5507.64 5039.4
河南 2339 2138 3618 1372 4367 5065 1933 3191.98 2943.36
湖北 3001 2898 6191 1900 5122 4863 3513 1941.62 1821.31
湖南 2302 2113 4007 1388 4212 4564 1969 2655.51 2413.7
广东 5953 5723 6817 2380 10554 8630 5296 4852.28 4360.45
广西 2826 2634 4601 1880 4959 6077 2926 1768.04 1637.99
海南 5443 5441 9058 1686 5831 5461 5157 372.44 358.72
重庆 2785 2640 6322 1751 4667 5432 2489 2872.19 2669.93
四川 3157 3067 7934 1266 5688 4528 2397 3501.27 3247.32
贵州 2339 2122 4738 1926 3672 5967 2935 908.2 848.11
云南 2680 2441 3230 1441 4860 5203 3086 1643.08 1478.25
西藏 3202 3103 3547 2133 10000 4554 1200 66.49 62.08
陕西 2952 2821 5589 1691 5571 5056 3149 1513.01 1426.06
甘肃 1958 1851 2082 1264 2899 4008 2134 624.66 588.63
青海 2460 2384 2768 1214 3271 4246 2625 147.89 141.23
宁夏 2435 2215 5345 1447 3726 4243 1570 514.81 453.26
新疆 2240 2100 3684 1333 5184 4156 2434 954.35 886.35
;
Proc Cluster Data = examination Method = average std;
ID province;
Var x1-x9;
Proc Tree horizontal;
Run;
③最小距离法
data examination;
input province$x1-x9@@;
cards;
北京 12418 11648 19541 3813 16554 17148 6416 1335.37 1031.43
天津 6015 5598 11107 3571 9783 10338 9195 1252.04 1135.35
河北 2779 2743 6375 2208 3692 3915 2102 2231.84 2128.86
山西 2355 2253 5741 1466 6115 2867 2545 994.71 893.10
内蒙古 2483 2265 4104 1690 4822 4080 2660 2396.37 2093.34
辽宁 3758 3575 7265 2095 4783 6149 3888 4091.16 3731.19
吉林 2507 2399 6175 1932 3256 3687 3213 1583.87 1435.73
黑龙江 2832 2642 5414 1785 2804 4330 3019 1486.57 1286.62
上海 8195 8115 12792 1847 11783 6610 5529 2339.29 2007.48
江苏 4049 3802 7729 1922 5906 6172 2567 6091.86 5282.89
浙江 6262 6144 9424 3092 9716 7446 3180 2992.2 2480.74
安徽 2949 2808 4058 1731 4596 4627 2139 2785.83 2542.6
福建 4384 4498 7334 2313 5386 8303 1686 1625.67 1250.00
江西 2136 2022 3141 1098 2840 4039 2057 1727.6 1604.86
山东 2970 2851 7256 1826 5601 4601 2440 5507.64 5039.4
河南 2339 2138 3618 1372 4367 5065 1933 3191.98 2943.36
湖北 3001 2898 6191 1900 5122 4863 3513 1941.62 1821.31
湖南 2302 2113 4007 1388 4212 4564 1969 2655.51 2413.7
广东 5953 5723 6817 2380 10554 8630 5296 4852.28 4360.45
广西 2826 2634 4601 1880 4959 6077 2926 1768.04 1637.99
海南 5443 5441 9058 1686 5831 5461 5157 372.44 358.72
重庆 2785 2640 6322 1751 4667 5432 2489 2872.19 2669.93
四川 3157 3067 7934 1266 5688 4528 2397 3501.27 3247.32
贵州 2339 2122 4738 1926 3672 5967 2935 908.2 848.11
云南 2680 2441 3230 1441 4860 5203 3086 1643.08 1478.25
西藏 3202 3103 3547 2133 10000 4554 1200 66.49 62.08
陕西 2952 2821 5589 1691 5571 5056 3149 1513.01 1426.06
甘肃 1958 1851 2082 1264 2899 4008 2134 624.66 588.63
青海 2460 2384 2768 1214 3271 4246 2625 147.89 141.23
宁夏 2435 2215 5345 1447 3726 4243 1570 514.81 453.26
新疆 2240 2100 3684 1333 5184 4156 2434 954.35 886.35
;
Proc Cluster Method = single std;
ID province;
Var x1-x9;
Proc Tree horizontal;
Run;
(二)SAS运行结果
①最长距离法
SAS 系统 |
Obs |
province |
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
x8 |
x9 |
1 |
北京 |
12418 |
11648 |
19541 |
3813 |
16554 |
17148 |
6416 |
1335.37 |
1031.43 |
2 |
天津 |
6015 |
5598 |
11107 |
3571 |
9783 |
10338 |
9195 |
1252.04 |
1135.35 |
3 |
河北 |
2779 |
2743 |
6375 |
2208 |
3692 |
3915 |
2102 |
2231.84 |
2128.86 |
4 |
山西 |
2355 |
2253 |
5741 |
1466 |
6115 |
2867 |
2545 |
994.71 |
893.10 |
5 |
内蒙古 |
2483 |
2265 |
4104 |
1690 |
4822 |
4080 |
2660 |
2396.37 |
2093.34 |
6 |
辽宁 |
3758 |
3575 |
7265 |
2095 |
4783 |
6149 |
3888 |
4091.16 |
3731.19 |
7 |
吉林 |
2507 |
2399 |
6175 |
1932 |
3256 |
3687 |
3213 |
1583.87 |
1435.73 |
8 |
黑龙江 |
2832 |
2642 |
5414 |
1785 |
2804 |
4330 |
3019 |
1486.57 |
1286.62 |
9 |
上海 |
8195 |
8115 |
12792 |
1847 |
11783 |
6610 |
5529 |
2339.29 |
2007.48 |
10 |
江苏 |
4049 |
3802 |
7729 |
1922 |
5906 |
6172 |
2567 |
6091.86 |
5282.89 |
11 |
浙江 |
6262 |
6144 |
9424 |
3092 |
9716 |
7446 |
3180 |
2992.20 |
2480.74 |
12 |
安徽 |
2949 |
2808 |
4058 |
1731 |
4596 |
4627 |
2139 |
2785.83 |
2542.60 |
13 |
福建 |
4384 |
4498 |
7334 |
2313 |
5386 |
8303 |
1686 |
1625.67 |
1250.00 |
14 |
江西 |
2136 |
2022 |
3141 |
1098 |
2840 |
4039 |
2057 |
1727.60 |
1604.86 |
15 |
山东 |
2970 |
2851 |
7256 |
1826 |
5601 |
4601 |
2440 |
5507.64 |
5039.40 |
16 |
河南 |
2339 |
2138 |
3618 |
1372 |
4367 |
5065 |
1933 |
3191.98 |
2943.36 |
17 |
湖北 |
3001 |
2898 |
6191 |
1900 |
5122 |
4863 |
3513 |
1941.62 |
1821.31 |
18 |
湖南 |
2302 |
2113 |
4007 |
1388 |
4212 |
4564 |
1969 |
2655.51 |
2413.70 |
19 |
广东 |
5953 |
5723 |
6817 |
2380 |
10554 |
8630 |
5296 |
4852.28 |
4360.45 |
20 |
广西 |
2826 |
2634 |
4601 |
1880 |
4959 |
6077 |
2926 |
1768.04 |
1637.99 |
21 |
海南 |
5443 |
5441 |
9058 |
1686 |
5831 |
5461 |
5157 |
372.44 |
358.72 |
22 |
重庆 |
2785 |
2640 |
6322 |
1751 |
4667 |
5432 |
2489 |
2872.19 |
2669.93 |
23 |
四川 |
3157 |
3067 |
7934 |
1266 |
5688 |
4528 |
2397 |
3501.27 |
3247.32 |
24 |
贵州 |
2339 |
2122 |
4738 |
1926 |
3672 |
5967 |
2935 |
908.20 |
848.11 |
25 |
云南 |
2680 |
2441 |
3230 |
1441 |
4860 |
5203 |
3086 |
1643.08 |
1478.25 |
26 |
西藏 |
3202 |
3103 |
3547 |
2133 |
10000 |
4554 |
1200 |
66.49 |
62.08 |
27 |
陕西 |
2952 |
2821 |
5589 |
1691 |
5571 |
5056 |
3149 |
1513.01 |
1426.06 |
28 |
甘肃 |
1958 |
1851 |
2082 |
1264 |
2899 |
4008 |
2134 |
624.66 |
588.63 |
29 |
青海 |
2460 |
2384 |
2768 |
1214 |
3271 |
4246 |
2625 |
147.89 |
141.23 |
30 |
宁夏 |
2435 |
2215 |
5345 |
1447 |
3726 |
4243 |
1570 |
514.81 |
453.26 |
31 |
新疆 |
2240 |
2100 |
3684 |
1333 |
5184 |
4156 |
2434 |
954.35 |
886.35 |
SAS 系统 |
CLUSTER 过程
最长距离聚类分析
协方差矩阵的特征值 |
||||
|
特征值 |
差分 |
比例 |
累积 |
1 |
35772032.0 |
31681669.2 |
0.7928 |
0.7928 |
2 |
4090362.8 |
1986540.1 |
0.0906 |
0.8834 |
3 |
2103822.7 |
587544.6 |
0.0466 |
0.9300 |
4 |
1516278.1 |
354496.6 |
0.0336 |
0.9636 |
5 |
1161781.5 |
778886.6 |
0.0257 |
0.9894 |
6 |
382894.9 |
292788.3 |
0.0085 |
0.9979 |
7 |
90106.6 |
86369.7 |
0.0020 |
0.9999 |
8 |
3736.9 |
1574.2 |
0.0001 |
1.0000 |
9 |
2162.8 |
0.0000 |
1.0000 |
根均方总样本标准差 |
2239.126 |
观测之间的平均距离 |
7472.306 |
聚类历史 |
|||||
聚类数 |
连接聚类 |
频数 |
Norm |
结值 |
|
30 |
河南 |
湖南 |
2 |
0.1337 |
|
29 |
湖北 |
陕西 |
2 |
0.142 |
|
28 |
吉林 |
黑龙江 |
2 |
0.1613 |
|
27 |
内蒙古 |
安徽 |
2 |
0.1634 |
|
26 |
甘肃 |
青海 |
2 |
0.1831 |
|
25 |
广西 |
云南 |
2 |
0.2307 |
|
24 |
CL27 |
CL30 |
4 |
0.2481 |
|
23 |
河北 |
CL28 |
3 |
0.2737 |
|
22 |
江苏 |
山东 |
2 |
0.3075 |
|
21 |
CL29 |
重庆 |
3 |
0.3107 |
|
20 |
江西 |
CL26 |
3 |
0.3161 |
|
19 |
CL25 |
贵州 |
3 |
0.319 |
|
18 |
宁夏 |
新疆 |
2 |
0.3301 |
|
17 |
辽宁 |
四川 |
2 |
0.3787 |
|
16 |
山西 |
CL18 |
3 |
0.4046 |
|
15 |
CL23 |
CL21 |
6 |
0.4152 |
|
14 |
CL24 |
CL19 |
7 |
0.4911 |
|
13 |
CL17 |
CL22 |
4 |
0.5259 |
|
12 |
CL15 |
CL16 |
9 |
0.5433 |
|
11 |
CL14 |
CL20 |
10 |
0.6028 |
|
10 |
浙江 |
广东 |
2 |
0.6155 |
|
9 |
福建 |
海南 |
2 |
0.709 |
|
8 |
CL12 |
CL11 |
19 |
0.7825 |
|
7 |
天津 |
上海 |
2 |
0.948 |
|
6 |
CL8 |
西藏 |
20 |
1.059 |
|
5 |
CL7 |
CL10 |
4 |
1.0725 |
|
4 |
CL13 |
CL9 |
6 |
1.1398 |
|
3 |
CL6 |
CL4 |
26 |
1.38 |
|
2 |
CL5 |
CL3 |
30 |
2.3 |
|
1 |
北京 |
CL2 |
31 |
4.0033 |
TREE 过程
最长距离聚类分析
②类平均聚类法
CLUSTER 过程
类平均聚类分析
相关矩阵的特征值 |
||||
特征值 |
差分 |
比例 |
累积 |
|
1 |
5.84157478 |
3.84690740 |
0.6491 |
0.6491 |
2 |
1.99466738 |
1.54852927 |
0.2216 |
0.8707 |
3 |
0.44613811 |
0.11296630 |
0.0496 |
0.9203 |
4 |
0.33317182 |
0.14208589 |
0.0370 |
0.9573 |
5 |
0.19108593 |
0.04692393 |
0.0212 |
0.9785 |
6 |
0.14416199 |
0.09684490 |
0.0160 |
0.9945 |
7 |
0.04731709 |
0.04623462 |
0.0053 |
0.9998 |
8 |
0.00108248 |
0.00028206 |
0.0001 |
0.9999 |
9 |
0.00080041 |
0.0001 |
1.0000 |
已将数据标准化成均值为 0 且方差为 1 |
根均方总样本标准差 |
1 |
观测之间的根均方距离 |
4.242641 |
聚类历史 |
|||||
聚类数 |
连接聚类 |
频数 |
Norm RMS |
结值 |
|
30 |
吉林 |
黑龙江 |
2 |
0.1172 |
|
29 |
河南 |
湖南 |
2 |
0.1367 |
|
28 |
湖北 |
陕西 |
2 |
0.1462 |
|
27 |
内蒙古 |
安徽 |
2 |
0.1568 |
|
26 |
甘肃 |
青海 |
2 |
0.1642 |
|
25 |
CL28 |
广西 |
3 |
0.1703 |
|
24 |
山西 |
新疆 |
2 |
0.202 |
|
23 |
CL27 |
CL29 |
4 |
0.2091 |
|
22 |
CL25 |
云南 |
4 |
0.2373 |
|
21 |
CL23 |
重庆 |
5 |
0.238 |
|
20 |
江苏 |
山东 |
2 |
0.2396 |
|
19 |
CL30 |
贵州 |
3 |
0.2519 |
|
18 |
CL24 |
宁夏 |
3 |
0.2584 |
|
17 |
CL19 |
CL22 |
7 |
0.2661 |
|
16 |
CL18 |
CL26 |
5 |
0.3034 |
|
15 |
河北 |
CL21 |
6 |
0.3368 |
|
14 |
CL16 |
江西 |
6 |
0.3389 |
|
13 |
CL15 |
CL17 |
13 |
0.3743 |
|
12 |
辽宁 |
四川 |
2 |
0.4374 |
|
11 |
CL13 |
CL14 |
19 |
0.4611 |
|
10 |
CL12 |
CL20 |
4 |
0.5131 |
|
9 |
CL11 |
福建 |
20 |
0.6372 |
|
8 |
浙江 |
广东 |
2 |
0.6377 |
|
7 |
CL9 |
西藏 |
21 |
0.6979 |
|
6 |
上海 |
CL8 |
3 |
0.7816 |
|
5 |
CL7 |
海南 |
22 |
0.7878 |
|
4 |
CL5 |
CL10 |
26 |
0.8819 |
|
3 |
天津 |
CL6 |
4 |
1.0439 |
|
2 |
CL3 |
CL4 |
30 |
1.2593 |
|
1 |
北京 |
CL2 |
31 |
2.3728 |
TREE 过程
类平均聚类分析
③最小距离聚类法
CLUSTER 过程
最短距离聚类分析
相关矩阵的特征值 |
||||
|
特征值 |
差分 |
比例 |
累积 |
1 |
5.84157478 |
3.84690740 |
0.6491 |
0.6491 |
2 |
1.99466738 |
1.54852927 |
0.2216 |
0.8707 |
3 |
0.44613811 |
0.11296630 |
0.0496 |
0.9203 |
4 |
0.33317182 |
0.14208589 |
0.0370 |
0.9573 |
5 |
0.19108593 |
0.04692393 |
0.0212 |
0.9785 |
6 |
0.14416199 |
0.09684490 |
0.0160 |
0.9945 |
7 |
0.04731709 |
0.04623462 |
0.0053 |
0.9998 |
8 |
0.00108248 |
0.00028206 |
0.0001 |
0.9999 |
9 |
0.00080041 |
0.0001 |
1.0000 |
已将数据标准化成均值为 0 且方差为 1 |
根均方总样本标准差 |
1 |
观测之间的平均距离 |
3.52209 |
聚类历史 |
|||||
聚类数 |
连接聚类 |
频数 |
Norm |
结值 |
|
30 |
吉林 |
黑龙江 |
2 |
0.1412 |
|
29 |
河南 |
湖南 |
2 |
0.1647 |
|
28 |
湖北 |
陕西 |
2 |
0.1761 |
|
27 |
CL28 |
广西 |
3 |
0.1883 |
|
26 |
内蒙古 |
安徽 |
2 |
0.1889 |
|
25 |
甘肃 |
青海 |
2 |
0.1978 |
|
24 |
CL26 |
CL29 |
4 |
0.2069 |
|
23 |
CL24 |
重庆 |
5 |
0.218 |
|
22 |
CL27 |
云南 |
4 |
0.2431 |
|
21 |
山西 |
新疆 |
2 |
0.2434 |
|
20 |
CL30 |
CL22 |
6 |
0.2603 |
|
19 |
CL21 |
CL20 |
8 |
0.2604 |
|
18 |
CL19 |
贵州 |
9 |
0.2714 |
|
17 |
CL18 |
CL25 |
11 |
0.2746 |
|
16 |
CL17 |
CL23 |
16 |
0.2755 |
|
15 |
CL16 |
宁夏 |
17 |
0.2786 |
|
14 |
江苏 |
山东 |
2 |
0.2886 |
|
13 |
河北 |
CL15 |
18 |
0.3074 |
|
12 |
CL13 |
江西 |
19 |
0.3194 |
|
11 |
CL12 |
四川 |
20 |
0.3432 |
|
10 |
CL11 |
辽宁 |
21 |
0.479 |
|
9 |
CL10 |
CL14 |
23 |
0.5277 |
|
8 |
CL9 |
福建 |
24 |
0.5494 |
|
7 |
CL8 |
西藏 |
25 |
0.6495 |
|
6 |
CL7 |
海南 |
26 |
0.7267 |
|
5 |
浙江 |
广东 |
2 |
0.7682 |
|
4 |
CL6 |
CL5 |
28 |
0.7915 |
|
3 |
CL4 |
上海 |
29 |
0.8678 |
|
2 |
天津 |
CL3 |
30 |
1.1976 |
|
1 |
北京 |
CL2 |
31 |
1.7251 |
TREE 过程
最短距离聚类分析
(三)运行结果分析
最小距离和类平均聚类法在这个数据样本下都不太好用,聚类结果比较没特色,都只能一眼看出北京处于独一类,而对另外的类别较难划分。
从最长距离聚类法来看,可以划分为四类。第一类是国家政治经济中心首都北京,房价独一档高;第二类是经济发达地区——广东,浙江,上海和天津;第三类是沿河沿江沿海地区——福建,山东,江苏,海南,四川,辽宁;第四类是中西部内地地区——西藏,青海,江西,广西,陕西,河北,吉林由于种种原因房价较低。
五、实验感想
做完聚类分析后,似乎解决了做主成分分析法时遗留的看聚类图看不懂的问题。
然后我觉得聚类分析在我以后写课题论文啥的时候应该很有帮助,可以增加文章的可读性,使得更加丰富。