案例实践:用SPSS做K均值聚类分析

01

案例数据背景

某公司对应聘的48人进行多项测试后,对直接表现其特征的14个方面进行了打分,每个单项都采用10分制,得分越高说明当事人在此方面表现越好。试对应聘者做聚类。

案例实践:用SPSS做K均值聚类分析_第1张图片

对应聘者做聚类,在现实中可能有些意义。比如同一类型的应聘者5人,公司仅有2个名额的话,是不是就方便HR在同一类型人中做更小范围的筛选。

另外不同类型的应聘者,可以提供不同的工作和培训。

02

SPSS菜单操作

菜单:【分析】→【分类】→【K均值聚类】:

案例实践:用SPSS做K均值聚类分析_第2张图片

1)聚类依据是至关重要的,多一个少一个都可能引起聚类结果的改变,本例将所有品质得分数据作为聚类依据。

2)聚几个类合适呢?可以采用遍历的方式反复多次聚类,并对结果进行比较总结经验,类可以不要太多,本例聚成3类。因此聚类数直接输入数字3。

K均值聚类要求用户在开始聚类前对聚类对象的分类有所认知,开始聚类时应明确指出聚成几个类,如果对类的结果没有经验参考,那么采取遍历的方式寻找最佳的聚类个数K。

点开【保存】按钮,要求软件根据聚类算法计算各应聘者的分类及距离类中心的距离。

案例实践:用SPSS做K均值聚类分析_第3张图片

打开【选项】按钮,勾选【初始聚类中心】和【ANOVA】表,后者有一定价值,是以聚类结果作为因子,以各参与聚类的变量作为因变量,做单因素方差分析,考察类结果对各指标的区分情况。

案例实践:用SPSS做K均值聚类分析_第4张图片

返主对话框,点【确定】后执行。

03

SPSS结果解读

案例实践:用SPSS做K均值聚类分析_第5张图片

聚类结果之各类规模或各类成员数。出现了一个小类,编号为3,仅有3个应聘者成员。

案例实践:用SPSS做K均值聚类分析_第6张图片

在数据视图下可以看到原始数据新增了一个聚类结果变量,给出每一位应聘者的分类编号。比如分类水平1代表归属与编号1的类型。

至于这三个类的特征,需要用户自己提炼信息并命名。这里和因子分析有些类似。类的特征需要各自独立,且符合实际指导意义。

有没有办法从可视化效果的角度来看看聚类结果呢?有,我们绘制一个立体3维散点图吧。

案例实践:用SPSS做K均值聚类分析_第7张图片

这个角度看,三个分类的区分还是比较明显的。但此图缺点也很明显,怎么选定绘制图所需的三个变量?聚类变量重要性排序吗?

SPSS并没有给出明确方案。况且散点图我们只能最多放三个轴,可我们现在有10多个聚类依据啊,如何去展示呢?如何辅助去提炼类特征呢?

小兵给大家一个最简单的方案。

我们以最终聚类中心为数据资料,绘制各类在各项目上的条形图,对比条形图的高低来对类做特征描述。

案例实践:用SPSS做K均值聚类分析_第8张图片

看着此图,我们找一找各个项目的最高得分,最低得分,总结提炼类的特征。编号为1的类型是【忠厚老实】,编号为2的类型是【缺乏经验】,其他方面都不错,编号为3的类型是【经验丰富老油条】或是在某方面有特别之才能。

对类特征有一个总体把握之后,对各类型应聘者提供不同的,相对应的职位和工作。

你可能感兴趣的:(可视化,python,java,机器学习,数据分析)