SPSS中系统聚类操作案例

示例:

一啤酒生产商想了解当前啤酒市场情况,并判断时下最受欢迎的啤酒品牌,收集了多种啤酒在售价、热量、钠含量、酒精含量等方面的数据。运用系统聚类法对各项数据进行分析,并给出:

(1)所有样本的归类情况表(群集成员表);

(2)所有样本的树状图;

(3)简要分析聚类结果。(酒精含量较高的啤酒酒质较好,国际上公认12°以上的啤酒为高级啤酒,酒精含量5%左右;低“钠”含量的食物较健康)。

主要操作步骤如下:

SPSS中系统聚类操作案例_第1张图片

(1)将变量移入 变量框 中。将标志变量 啤酒名 移入 个案标记依据框 中;

在 分群 栏中选择 个案 单选按钮,即对样品进行聚类(若选择 变量,则对变量进行聚类)。在 输出 栏中选择 统计量 和 复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

SPSS中系统聚类操作案例_第2张图片

 (2)点击 统计量 按钮,设置在结果输出窗口中给出的聚类分析统计量。在 聚类成员 中,方案范围2—4(此数值不固定,可根据实际情况而定),这样在结果输出窗口中可以得到分别分成2、3、4类的聚类结果;点击 继续 按钮;

SPSS中系统聚类操作案例_第3张图片

(3)点击 绘制 按钮,设置结果输出窗口中给出的聚类分析统计图。选中 树状图 复选框和 冰柱 栏中的  单选按钮,即只给出聚类树形图,而不给出冰柱图。单击 继续 按钮,返回主界面;

树状图可以非常直观的看出整个聚类过程和结果,是观察理解聚类结果的重要图形,一般要选择它;冰柱图也是查看聚类结果的一种图形,但是它无论从应用范围还是易于理解性上都要比树状图差一些,所以此处未选。

SPSS中系统聚类操作案例_第4张图片

(4)点击 方法 按钮,设置系统聚类的方法选项。聚类方法 下拉列表用于指定聚类的方法,包括组间连接、组内连接、Ward法等;不同的聚类方法结果不一定完全相同,一般只是大致相似。如果有很大的差异,则应该仔细考查,找到问题所在;另外,可将聚类结果与实际问题对照,看哪一个结果更符合经验;这里沿用系统默认选项;

度量标准 用于选择对距离和相似性的测度方法。一般而言对每一类变量类型使用其默认方法即可;

转换值 和 转换度量 用于选择对原始数据进行标准化的方法。当进行聚类的变量之间数量级相差比较大的时候,往往要根据数据的实际情况选择相应的标准化方法,这里将全部数据标准化为Z得分。右侧的 转换变量 还可以设置进一步的变换方法,可以为 先取绝对值再变换、变换后更改正负号、或者先将取值范围变为0-1再进行变换。一般来说不需要使用这些选项。单击 继续,返回主界面。

(5)点击 确定 按钮,得到系统聚类分析结果。

主要结果如下:

(1)所有样本的归类情况表(群集成员表);

SPSS中系统聚类操作案例_第5张图片

 “群集成员”表格是聚类个数为2—4时的类成员表;在数据编辑窗口生成了同样的内容,即3个变量,保存聚类个数分别为2、3、4时的分类结果,如下所示。SPSS中系统聚类操作案例_第6张图片

(2)所有样本的树状图;

图形的左边代表进行聚类的对象,而对象的合并则通过线条连接的方式来表达。在这个例子中,对应的是各啤酒名列在结果的最左端,而结果的上端给出的是类别间的相对距离。

SPSS中系统聚类操作案例_第7张图片

 (3)简要分析聚类结果。(酒精含量较高的啤酒酒质较好,国际上公认12°以上的啤酒为高级啤酒,酒精含量5%左右;低“钠”含量的食物较健康)

根据保存的分类结果,对各类中售价、酒精含量、钠含量和热量进行对比,分析所属各类啤酒品质的好坏;或进行描述性分析(从均值、标准差等方面简单直观地研究各类别之间的区别),对聚类结果进一步分析。

描述性分析:

SPSS中系统聚类操作案例_第8张图片

SPSS中系统聚类操作案例_第9张图片

SPSS中系统聚类操作案例_第10张图片

SPSS中系统聚类操作案例_第11张图片 SPSS中系统聚类操作案例_第12张图片

 拖动调整3个描述量的位置如下所致:

 SPSS中系统聚类操作案例_第13张图片

 关闭窗口即得到:系统聚类的PLAP立方体(以分三类为例,其他类别分析类似)

SPSS中系统聚类操作案例_第14张图片

 由各类均值看出,第一类售价较高,酒精含量高且接近5%,钠含量较低(比第3类略高);第三类价格最低,酒精含量也远低于一、二类;第二类售价和热量适中,酒精含量较高,且此类聚类数最多(14个),该类啤酒市场占有额较大。综合判断,第一类啤酒价格高、品质好,第二类最受市场青睐,第三类低能量、低度数,市场份额小。

你可能感兴趣的:(SPSS,聚类,机器学习,算法)