spss聚类分析_系统聚类分析(操作)

在前文系统聚类的理论分析基础上,下面来介绍系统聚类在SPSS中的操作和应用。在SPSS中系统聚类有两种类型,分别是Q型聚类和R型聚类:

Q型聚类是对观测样本进行聚类,它使具有相似特征的观测样本聚集在一起,使差异性大的观测样本分离开来。

R型聚类是对变量进行聚类,它使具有相似特征的变量聚集在一起,使差异性大的变量分离开来。实现减少变量个数和变量降维的目的。

1. 系统聚类的SPSS基本操作

1.1 选择菜单:【分析(A)】→【分类(F)】→【系统聚类(H)】;

spss聚类分析_系统聚类分析(操作)_第1张图片

spss聚类分析_系统聚类分析(操作)_第2张图片

1.2 选择参与系统聚类分析的变量到【变量】框中;

1.3 选择一个字符型变量作为标记变量到【标注个案(C)】;

1.4 在【聚类】框中选择聚类类型:【个案】表示进行Q型聚类,【变量】表示进行R型聚类;

1.5 在【输出】框中选择输出内容:【统计量】表示输出聚类分析的相关统计量,【图】表示输出聚类分析的相关图形;

1.6 点击【方法(M)】按钮指定距离的计算方法:【聚类方法(M)】框中给出的是计算个体与小类、小类与小类间距离的方法;【度量标准】框中给出的是不同变量类型下观测个体距离的计算方式,其中,【区间(N)】框中的方法适用于数值型变量;【计数(T)】框中的方法适用于计数变量;【二分类(B)】框中的方法适用于二分类变量;

spss聚类分析_系统聚类分析(操作)_第3张图片

spss聚类分析_系统聚类分析(操作)_第4张图片

spss聚类分析_系统聚类分析(操作)_第5张图片

bca6e5d543a8632e7552885b2ac409d1.gif

1.7 如果参与聚类分析的变量存在数量级上的差异,应在【标准化】框中选择消除数量级差的方法,并指定处理是针对变量还是针对观测,其中,【按照变量(V)】是针对变量,适用于R型聚类分析,【按个案】是针对观测,适用于Q型聚类分析。消除数量级差的方法包括:

无:表示不进行任何处理

※ Z得分:表示计算Z分数,它将各变量值减去均值后除以标准差

※ 全距从 - 1到1:表示各变量值除以全距,处理以后的变量值的范围在-1~1之间

※ 全距从0到1:表示各变量值减去最小值后除以全距,处理以后的变量值的范围在0~1之间

※ 1的最大量:表示将各变量值除以最大值,处理以后的变量值的最大值为1

※ 均值为1:表示将各变量值除以均值

※ 标准差为1:表示将各变量值除以标准差;

1.8 点击【统计量(S)】指定输出统计量,其中【合并进程表(A)】表示输出聚类分析的凝聚状态表,【相似性矩阵(P)】表示输出个体间的距离矩阵。【聚类成员】框中,【无(N)】表示不输出各观测的所属类,【单一方案(S)】表示指定输出当分成k类时各观测的所属类,是单一解,【方案范围(R)】表示指定输出当分成m~n类(m≤n)时各观测的所属类,是多个解;

spss聚类分析_系统聚类分析(操作)_第6张图片

1.9 点击【绘制(T)】按钮指定输出聚类分析图。

spss聚类分析_系统聚类分析(操作)_第7张图片

bca6e5d543a8632e7552885b2ac409d1.gif

2. 系统聚类的应用

根据以上操作步骤,利用某社区居民体检部分数据,检测指标有谷丙转氨酶ALT、谷草转氨酶AST、血清总蛋白TPROT、总胆固醇CHOL、尿素UREA、总胆红素TBK、谷氨酰转肽酶、碱性磷酸酶ALP、肌酐CREAT、球蛋白GLB、血清白蛋白ALB。现对对该人群检测指标进行变量聚类,即R型聚类分析。个体距离采用平方欧式距离,类间距离采用组间平均链锁距离,由于数据存在数量级的差异,因此采用将各变量值除以标准差的方式进行标准化处理,如下图所示。

spss聚类分析_系统聚类分析(操作)_第8张图片

spss聚类分析_系统聚类分析(操作)_第9张图片

随着台风的登陆,会带来大风、暴雨甚至风暴潮等灾害性天气。不过,万物皆有两面性,台风的形成也有其益处:

spss聚类分析_系统聚类分析(操作)_第10张图片

由冰柱图及树状图可知,如果将11个指标聚成3类,则总胆固醇CHOL自成一类,尿素UREA、肌酐CREAT为一类,其余指标为一类。其中总胆固醇CHOL是反映血脂异常指标;尿素UREA、肌酐CREAT是反映肾功能指标;其余指标均为反映肝功能指标。

今天的内容请大家好好练习哦,下节将介绍二阶聚类分析的相关内容,敬请期待~

在SPSS学堂中,回复20180902可以获取操作数据,一定要多加练习哦,继续关注我们~

你可能感兴趣的:(spss聚类分析)