IBM SPSS Modeler 实验
接下来,继续进行“两步聚类分析模型”的实验。
(1) SPSS Modeler 中的“两步”聚类分析方法与 K-Means 聚类分析方法的前四步完全相同。
(2) 进行接入模型。首先,使用“两步”模型进行聚类分析。选中工作区的“类型” 节点,在下面“建模”选项卡中,找到“两步”模型,并双击。在工作区中,即得到一个“两步”模型节点,如图 12所示。
图 12 工作区中的”两步”模型
(3) 同样,在此采用了默认的设置,因此直接运行。运行完毕之后,就可以在窗口右上侧框中看到“两步”聚类分析模型,右键单击该模型,并选择“浏览”。即可得到如图 13 的聚类分析图。
图 13 “两步”聚类分析图
(4) 从图 13 中可以发现,“两步”聚类分析得到的是三个类,分类预测字段的重要性也由药类含量、钾含量、血压、钠含量、性别、年龄和胆固醇含量逐渐递减。
Kohonen 聚类分析实验的步骤也比较简单。
(1) 前四步同 K-Means 聚类分析完全相同,即完成数据的导入、生成类型节点等步骤。
(2) 进行接入模型。选中工作区的“类型”节点,在下面“建模”选项卡中,找到“Kohonen” 模型,并双击。在工作区中,即得到一个“Kohonen”模型节点,如图 14 所示。
图 14 工作区中的“Kohonen”模型
(3) 运行“Kohonen”节点,得到聚类分析模型,如图 15。
图 15 “Kohonen”聚类分析图
(4) 从表中的数据,可以看到模型将数据分成 9 类。对于分类,字段的重要性如下逐渐递减:药类含量、血压、钾含量、性别、胆固醇含量、钠含量、年龄。其他信息也可以从模型中获得。
以上,完成三种聚类分析的建模。接下来,利用 K-Means 得到的结果进行模型分析。
(1) 添加 K-Means 模型。选定工作区中的“类型”节点,双击右上侧的“K-Means” 模型,即将 K-Means 模型添加到工作区中。
(2) 查看 K-Means 模型。利用“输出”选项卡中的“表”节点对模型的数据进行查看,如图 1-16。在表中,可以看到每个病人所属的类型,表中最后一列“$KND-K-Means” 是指每一个元素距离类中心的距离,距离越小,表示效果越好。
图 16 用于查看“K-Means”的表
(3) 采用其他形式查看聚类结果。除了“表”的查看方法外,还可以利用其它的查看方式。在这里,采用“图形”选项卡下的“分布”节点进行展示。选定“K-Means”节点,双击“分布”,即可得到“分布节点”。然后,双击该节点,既可以为图选定字段,如图 17 所示。在这里,将“字段”选为“$KND-K-Means”,颜色选为“Drug”,点击运行。
图 17 “分布图形”节点编辑窗口
(4) 分析分布图。如图 18 所示,从分布图中可以看到每个聚类所占的比例和个数,以及该类所拥有的药类。
图 18 “K-Means”聚类分布图
除了对聚类分析模型进行分析外,还可以对源数据直接分析。在这里,使用“图形”选项卡下的“集合”节点对原始数据进行分析。
(1) 添加“集合”节点。选定“DRUG1n”节点,双击“集合”,既可以添加“集合” 节点到工作区中。
(2) 选择分析的字段。在这里,双击“集合”节点,将 “图”选项卡中的“收集” 下拉列表设置为“Na”,“超出”下拉列表设置为“K”,如图 19 所示。
图 19 “集合”节点编辑窗口
(3) 运行节点流。运行该节点流,既可获得如图 20 的分布图。图中横轴表示“K” 的含量,纵轴表示在横轴上所有拥有“K”含量对应的病人所含有的“Na”含量之和。
图 20 节点流分布图