spss聚类分析_SPSS 聚类分析之K-均值聚类

聚类分析的定义

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。

聚类分析的基本原理

根据样本的属性,使用某种算法计算相似性或者差异性指标,以确定每个个案之间的亲疏关系,最终将所有个案分为多个相似组(即聚类),同一聚类的个案彼此相同,不同聚类中的个案彼此不同。常见的聚类方法有K均值聚类法、系统聚类法(也叫层次聚类法)等。

简而言之,聚类分析根据样本的多个属性,将相似的对象聚为一类,使同类之间尽量同质、不同类之间尽量异质。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标

聚类分析的应用

  • 聚类分析常用于对市场进行分群,在用户体验研究中,常用来根据用户的多种属性进行用户分群。
  • 设计抽样方案(分层抽样)
  • 预分析过程(先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或子集,然后再进行后续的多元分析)

聚类分析的特征

  • 聚类分析简单、直观。
  • 聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析。
  • 不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解。
  • 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
  • 异常值和特殊的变量对聚类有较大影响,当分类变量的测量尺度不一致时,需要事先做标准化处理。

聚类和分类的区别

  • 分类其实是从特定的数据中挖掘模式,作出判断的过程。聚类与分类的不同在于,聚类所要求划分的类是未知的。
  • 聚类的的目的也是把数据分类,但是事先我是不知道如何去分的,完全是算法自己来判断各条数据之间的相似性,相似的就放在一起。在聚类的结论出来之前,我完全不知道每一类有什么特点,一定要根据聚类的结果通过人的经验来分析,看看聚成的这一类大概有什么特点。

聚类分析的基本步骤总结

spss聚类分析_SPSS 聚类分析之K-均值聚类_第1张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第2张图片
聚类分析的步骤

spss聚类分析_SPSS 聚类分析之K-均值聚类_第3张图片
聚类方法的比较

一、k-均值聚类

K-Means是聚类算法中的最常用的一种,算法最大的特点是简单,好理解,运算速度快,可人为指定初始位置,适用于大样本聚类分析

缺点:只对样本聚类,不能对变量聚类 ;参数(聚类个数)需要提前指定,变量之间相关性都不高,只能应用于连续型的数据

K-means算法的过程。为了尽量不用数学符号,所以描述的不是很严谨,“物以类聚、人以群分”:

  • 1.首先输入k的值,即我们希望将数据集经过聚类得到k个分组。
  • 2.从数据集中随机选择k个数据点作为初始大哥(质心,Centroid)
  • 3.对集合中每一个小弟,计算与每一个大哥的距离(距离的含义后面会讲),离哪个大哥距离近,就跟定哪个大哥。
  • 4.这时每一个大哥手下都聚集了一票小弟,这时候召开人民代表大会,每一群选出新的大哥(其实是通过算法选出新的质心)。
  • 5.如果新大哥和老大哥之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为我们进行的聚类已经达到期望的结果,算法终止。
  • 6.如果新大哥和老大哥距离变化很大,需要迭代3~5步骤。

K-Means的细节问题

1.K值怎么定?我怎么知道应该几类?

答:这个真的没有确定的做法,分几类主要取决于个人的经验与感觉,通常的做法是多尝试几个K值,看分成几类的结果更好解释,更符合分析目的等。或者可以把各种K值算出的SSE做比较,取最小的SSE的K值。

2.初始的K个质心怎么选?

答:最常用的方法是随机选,初始质心的选取对最终聚类结果有影响,因此算法一定要多执行几次,哪个结果更合适,就用哪个结果。 当然也有一些优化的方法,第一种是选择彼此距离最远的点,具体来说就是先选第一个点,然后选离第一个点最远的当第二个点,然后选第三个点,第三个点到第一、第二两点的距离之和最小,以此类推。第二种是先根据其他聚类算法(如层次聚类)得到聚类结果,从结果中每个分类选一个点。

3.K-Means会不会陷入一直选质心的过程,永远停不下来?

答:不会,有数学证明K-Means一定会收敛,大致思路是利用SSE的概念(也就是误差平方和),即每个点到自身所归属质心的距离的平方和,这个平方和是一个函数,然后能够证明这个函数是可以最终收敛的函数。

4.关于离群值?

答:离群值就是远离整体的,非常异常特殊的数据点,在聚类之前应该将这些“极大”“极小”之类的离群数据都去掉,否则会对于聚类的结果有影响。但是,离群值往往自身就很有分析的价值,可以把离群值单独作为一类来分析。

5.用SPSS作出的K-Means聚类结果,包含ANOVA(单因素方差分析),是什么意思?

答:简单说就是判断用于聚类的变量是否对于聚类结果是否有贡献,方差分析检验结果越显著的变量,说明对聚类结果越有影响。对于不显著的变量,可以考虑从模型中剔除。

6.数据的问题

比如X的单位是米,Y也是米,那么距离算出来的单位还是米,是有意义的,但是如果X是米,Y是吨,用距离公式计算就会出现“米的平方”加上“吨的平方”再开平方,最后算出的东西没有数学意义,这就有问题了。即使X和Y单位一致,但是如果数据中X整体都比较小,比如都是1到10之间的数,Y很大,比如都是1000以上的数,那么,在计算距离的时候Y起到的作用就比X大很多,X对于距离的影响几乎可以忽略,这也有问题。一定要进行数据的标准化(normalization),即将数据按比例缩放,使之落入一个小的特定区间。

标准化方法最常用的有两种:去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行计算和比较。

  • min-max标准化(离差标准化):对原始数据进行线性变换,结果落到【0,1】区间,转换方法为 X'=(X-min)/(max-min),其中max为样本数据最大值,min为样本数据最小值。
  • z-score标准化(标准差标准化):处理后的数据符合标准正态分布(均值为0,方差为1),转换公式:X减去均值,再除以标准差。

问题描述:下面是反映移动电话用户使用手机情况的数据集。包含7个变量:用户编号、工作日上班时间电话时长、工作日下班时间电话时长、周末电话时长、国际电话时长、总通话时长、平均每次通话时长,现希望对移动用户细分,了解他们不同的手机消费习惯。根据研究调研及经验,认为移动用户应分为5个主要消费群体。

spss聚类分析_SPSS 聚类分析之K-均值聚类_第4张图片

数据预处理

1)先看看几个变量的相关性:【相关】

spss聚类分析_SPSS 聚类分析之K-均值聚类_第5张图片

我们发现几个变量之间相关性都不高,因此可以全部作为聚类的变量进入后续分析过程。

2)接下来对三个变量进行标准化

分析-描述统计-描述-勾选“将标准化得分另存为变量”

spss聚类分析_SPSS 聚类分析之K-均值聚类_第6张图片

3)仅仅预处理以上这些问题还不够,当数据分析方法复杂时,我们还需对采集的数据进行筛选构成小的数据集,对于数据集中变量的分布、缺失、描述统计指标进行一定程度的分析。

spss聚类分析_SPSS 聚类分析之K-均值聚类_第7张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第8张图片
线性检查

spss聚类分析_SPSS 聚类分析之K-均值聚类_第9张图片

spss操作

spss聚类分析_SPSS 聚类分析之K-均值聚类_第10张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第11张图片

聚类数据:指定变量分类的类数>=2

方法:

  • 迭代与分类:选定初始类别之后,会随着迭代改变质心(聚类中心)。系统默认
  • 仅分类:选定初始类别之后,不改变质心

spss聚类分析_SPSS 聚类分析之K-均值聚类_第12张图片
【迭代】选项
  • 收敛性标准:0~1,表示初始聚类中心的最小距离的比例,如0.01表示一次迭代中任一个聚类中心的移动占原始聚类中心的比例为1%
  • 使用运行平均值:不勾选这个,表示在所有个案分类完成后在给出聚类中心,可以节省运行时间。勾选表示每分类完一个个案就给出一个聚类中心。

spss聚类分析_SPSS 聚类分析之K-均值聚类_第13张图片
【保存】选项

聚类成员:产生一个新变量QCL_1用来表示观测量的分类

与聚类中心的距离:产生一个新变量QCL_2用来表示与聚类中心的距离

spss聚类分析_SPSS 聚类分析之K-均值聚类_第14张图片
【选项】按钮

统计:

  • 初始聚类中心
  • 方差表。判断用于聚类的变量是否对于聚类结果是否有贡献,方差分析检验结果越显著的变量,说明对聚类结果越有影响。对于不显著的变量,可以考虑从模型中剔除。
  • 每个个案的聚类信息

输出结果

spss聚类分析_SPSS 聚类分析之K-均值聚类_第15张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第16张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第17张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第18张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第19张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第20张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第21张图片

撰写结论

spss聚类分析_SPSS 聚类分析之K-均值聚类_第22张图片

spss聚类分析_SPSS 聚类分析之K-均值聚类_第23张图片

本文借鉴网上多名优秀博主关于聚类分析的资料,整理出的一份学习笔记,与大家共享

你可能感兴趣的:(spss聚类分析)