多元相关性分析_一篇短文读懂聚类分析

一、 聚类分析概念

聚类(Cluster)分析,顾名思义就是指将研究的对象进行分类,这是人们认识世界最基本的方法。生物学家通过分类,区分了动物和植物,物理学分成了力、热、声、电,化学分成了有机和无机。古老的分类学,人们主要靠经验和专业知识实现分类,随着人类对自然的认识不断加深,仅靠经验和专业知识已不能准确分类,于是最早把数学工具引进了植物分类,出现了种、属、科、目、纲、门和界的自大而小的阶梯结构,一定程度上反映了种系发生和进化的规律。后来随着多元分析的引进,从植物分类学中逐渐分离出一个专门进行聚类分析的分支。

与多元分析的其他方法相比,聚类分析是很粗糙的,理论尚不完善,但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等,因此成了多元分析的重要方法,统计包中都有丰富的软件,对数据进行聚类处理。

聚类分析除了独立的统计功能外,还有一个辅助功能,就是和其他统计方法配合,对数据进行预处理。例如,当总体不清楚时,可对原始数据进行聚类,根据聚类后相似的数据,各自建立回归分析,分析的效果会更好。同时如果聚类不是根据个案,而是对变量先进行聚类,聚类的结果,可以在每一类推出一个最有代表性的变量,从而减少了进入回归方程的变量数。

聚类分析是研究按一定特征,对研究对象进行分类的多元统计方法,它并不关心特征及变量间的因果关系。分类的结果,应使类别间个体差异大,而同类的个体差异相对要小。例如,同学间会自然地形成一些小圈子,圈子内的人际关系比较密切,分析其原因,可能是爱好、家庭背景、性格、学习成绩相近等,这种物以类聚、人以群分的现象,在社会生活中是普遍存在的。分类法也是人类认识自然的一种古老和基本的方法。不仅很多学科的发展是从分类开始,而且分类对学科还起到了关键作用。

和聚类相近的,还有一种也是用于分类的统计分析方法,称判别分析,严格说,它不是分类方法,而是归类的方法。判别的分类,是根据外在事先导出的准则,分成了若干类别,然后将新的对象归入已知的类别。而聚类分析是所有研究的个案,它们之间的关系都是未知的,甚至连总共有几类都不知道。聚类分析是根据事物本身相似的程度进行分类的。但聚类分析与判别分析也可以是研究工作的两个阶段,首先通过样本的聚类,建立起科学的分类,然后,以此分类为依据,指导新的发现对象,判别它应该属于哪一类别。

例如考古学家根据某地古人类颅骨的长、宽、高、额、鼻、眶、面、齿等22组指标,通过聚类分成了5类,这使以后发现的颅骨判别其属类有了依据。又如中国的传统医学,认为人的体质是不同的,同样的病症,对不同的体质,用药应有所不同,但为了弄清楚体质的不同,曾进行了近千人的调查,通过32个有关健康表相的问题,聚成了9类不同的体质,有了这9种体质的量表,可以准确地判别病人的体质,从而做到一人一方。所以在某些领域,如航空探矿、指纹识别、语音识别、文字识别等,判别分析的重要性与回归分析相当。

聚类分析之所以称作统计方法,是因为这些计算方法往往要用到统计学中的一些基本概念,如平均值、方差、相关系数等。但是聚类所处理的数据并不是统计意义下的样本,一般不要求随机抽样,研究结论也不要求外推,不涉及显著性检验等问题。

二、 聚类分析概述

简单说,聚类分析就是研究物以类聚的多元统计分析方法。这里的物,就是我们所收集的样本,通过比较样本中各事物之间的性质,将性质相近的聚为一类,性质差别比较大的分在别的类。

而所谓性质,是由一个或多个指标所组成的指标群来表达,因此如何选择指标(群)就成了研究事物的关键,特别要强调的是聚类统计分析,只是提供了数学工具,而统计包充其量只是代替人工进行繁琐的数学运算,所以聚类的结果、分类是否有效,关键在于指标的选择,它既要精炼又要没有重大的遗漏,而这些都是专业本身要解决的问题。例如研究城市归类,如果缺少了人均GDP,或者研究人口素质,缺少了人均期望寿命,显然这样的归类都是虚假的或不成功的。

聚类分析分为两类。一类是对个案进行聚类,称作Q型聚类,另一类是对变量进行聚类,称作R型聚类。社会学研究一般都是大样本,由于个案多,常转化为变量间的相关,采用R型聚类。

但随着社会学研究内容的扩大,其中也不乏小样本的研究。例如,对城市发展水平的分类,企业类型的评估等,研究的对象,仅限于有限的城市和企业,这时就需要用到Q型聚类分析。

聚类分析的基础数据,都是来源于原始的调查表,为了解释聚类分析的过程,这里虚拟了一份调查结果。

设调查了7个省份12项指标:人口、就业、教育、收入、住房、公共交通、闲暇、医疗、犯罪、平均绿地占有率、空气质量、饮用水。录入数据后,每个省份占据调查表的一行,第一列是省份名称(序号),第二列至第十三列,依次是该省份12项指标得分,最后得到了7个省份,共7×13的矩阵表9-1:

多元相关性分析_一篇短文读懂聚类分析_第1张图片 

根据表9-1可以作两类聚类:一类是研究这7个省份中,哪几个省份更相近,是否可以归成几类,因为它的分析单位是省份,每个省份就是一个个案,所以按省份归类,就是按个案归类,这类称Q型聚类。另一类是表9-1中所列的指标(变量),研究变量间是否是相互有关的,例如文化程度、收入、住房等之间,可能存在一定的相关,并按变量间相关程度,将变量(指标)聚合为若干类别,使得每类的内部,变量间相关性强,而类别的外部,变量间相关性弱,这类称作R型聚类。

这两类看似有很大区别,实际如果把个案和变量都统一看作研究对象,那么,它们都是探讨研究对象之间的相似性,Q型聚类研究的是个案之间的相似性,而R型聚类研究的是指标(变量)之间的相似性。当从一个个案或变量,过渡到由若干个个案或变量聚合成的小类,再由小类逐步聚合成更大的大类,其聚合的过程,都是根据个案之间或类与类之间的相似性进行的。因此如何度量相似性是聚类的核心问题。

本文节选自卢淑华:《多元社会统计分析基础》,北京大学出版社,2017年8月版。

你可能感兴趣的:(多元相关性分析)