【多元统计分析】聚类分析——spss上机实验

聚类分析

#例题来自于中国人民大学《多元统计分析》第五版 何晓群著
例题3.5 数据获取扫码关注微信公众号 回复:例3.5

#如果你觉得很有用,可以点点关注哦~你的关注是美滋滋继续努力的动力!

题目

为研究城镇居民的消费结构,对《中国统计年鉴》中2016年分地区城镇居民人均消费支出表进行指标聚类,该表共有8个指标,分别是食品烟酒支出、衣着支出、居住支出、生活用品及服务支出、交通通信支出、教育文化娱乐支出、医疗保健支出、其他用品及服务支出。将指标中相关性较强的指标进行归并,可有效得到地区消费水平的分类结果。

实验目的

对社会经济案例进行研究

SPSS上机操作步骤

一、相关性分析

对数据进行距离的计算,输出近似值矩阵。当两个变量之间的相似性越趋近于1时,说明这两个变量的相关程度较高,观察表格可得的相似性为0.826,是表格中最趋近于1的部分,因此将x4和x8归为一类,重新计算近似值矩阵。
操作
【多元统计分析】聚类分析——spss上机实验_第1张图片

输出结果
【多元统计分析】聚类分析——spss上机实验_第2张图片

近似值矩阵相当于相关系数矩阵,表现了两个变量之间的相关程度,对角线为方差,相关系数矩阵的计算公式为
【多元统计分析】聚类分析——spss上机实验_第3张图片
根据公式也可以手算出相关系数矩阵,在多元统计分析的考试中也是一个基础考点

二、组间连接法进行系统聚类

操作
【多元统计分析】聚类分析——spss上机实验_第4张图片
选择输出图形的类型,系谱图和冰柱图都可以良好的表现样品间的相关关系。
【多元统计分析】聚类分析——spss上机实验_第5张图片
可以在方法选项中选择聚类的方法。
【多元统计分析】聚类分析——spss上机实验_第6张图片

同时在方法选项中可以选择自定义统计距离的计算方法,默认为平方欧氏距离。平方欧氏距离与欧氏距离定义不一样。
【多元统计分析】聚类分析——spss上机实验_第7张图片

输出结果
【多元统计分析】聚类分析——spss上机实验_第8张图片

使用类平均法对变量进行聚类,结果如下,可以看到在一定分类范围内,变量之间被分为5、3和2类,可以看到全国城镇居民消费结构主要大致分为以下方面:x2衣着支出和x4生活用品及服务支出为一方面,x7医疗保健支出和x8其他用品及服务支出为一方面,x4、x5、x6交通通信支出、教育文化娱乐支出为一方面,最后占比最大的方面是食品烟酒支出和居住支出其他用品与服务支出。
对个案之间用类平均法(组间链接),进行聚类,得到个案间的聚类谱系图。可以看到,北京、上海为一类,天津、福建、浙江、江苏和广东为一类,其他为一类。以北京上海为首的一类消费水平较高,天津、福建、浙江、江苏和广东消费水平中等,其他消费水平较低。

【多元统计分析】聚类分析——spss上机实验_第9张图片

三、使用最长距离法进行系统聚类

操作方法同上。不再赘述。

使用最长距离法对个案就行聚类,依然是北京、上海为一类,第二类是江苏广东福建天津浙江为一类,其余为一类,所得结果与组间连接法相同。
【多元统计分析】聚类分析——spss上机实验_第10张图片

四、使用最短距离法进行系统聚类

使用最短距离法进行分类,最短距离法的聚类结果显示,北京上海被聚为一类,其余省市被聚为一类,显然不具有合理性,因此可认为最短距离法不如组间链接和最长距离法的聚类结果好。
【多元统计分析】聚类分析——spss上机实验_第11张图片

五、使用k-means聚类法对样本进行聚类

从初始聚类中心表中可以得到k-means算法将样本分为了4个聚类中心,其中聚类中心1中的聚类效果最好,因为他的各项指标值是最优的,其次是第二类,以此类推最差是第四类,因为第四类的各项指标值是4类中最低的。
初始聚类中心
【多元统计分析】聚类分析——spss上机实验_第12张图片
迭代历史记录表表示了4类中心点在每次迭代的偏移情况,由此可知第一次迭代的四个类中心点偏移量分别是1294.517,1429.907,1679.367,1901.705,第二次迭代时,四个类中心点的偏移量均为0,达到停止迭代标准,因此只迭代了两次。
【多元统计分析】聚类分析——spss上机实验_第13张图片
第三个表是最终聚类中心表,最终聚类中心表中第一类的各项指标仍然是最优的。最终聚类中心表中的数值,是各个聚类的均值,可用作分类指标。
【多元统计分析】聚类分析——spss上机实验_第14张图片
最后一张表是每个聚类中的个案数目,也就是每一类中的样品数,其中第一类包2个地区,第二类包含5个地区,第三类包含4个地区,第四类包含了20个地区。
【多元统计分析】聚类分析——spss上机实验_第15张图片

试验总结:

本次实验采用了两种聚类方法,四种距离计算方法对样本的31个地区进行聚类分析,得到人均消费支出较为接近的地区,将其分为一类。其中,在进行聚类之前,应先对样本进行近似值估算,即相关性分析,得到相关系数矩阵,找到相关系数最为接近1的一项,将两个因素归为一类,再进行相关系数计算,得到城镇居民消费指标的系统聚类图。由城镇居民消费指标的系统聚类图可以得到,x1、x3和x8是城镇居民人均消费支出的大头,即食品烟酒支出、居住支出和其他用品及服务支出,符合现实支出情况。利用区间连接、最长距离法、最短距离法分别进行个案聚类,其中,最长距离法、区间连接法得到的结果均为北京、上海为一类,第二类是江苏广东福建天津浙江为一类,其余为一类,而最短距离法只进行了两次分类,分别是北京上海为一类,其他为一类,分类结果显然差于前两种方法。最后是运用k-means聚类法进行聚类,得到的结果与最长距离法、区间连接法相一致。

你可能感兴趣的:(多元统计分析,机器学习,算法,人工智能,数据挖掘,数据分析)