聚类分析的意义Cluster Analysis
在经济和社会学研究中,聚类分析是比较常用的多元统计分析方法,是将大量复杂多维的数据和变量进行分组分析的方法。
例如采集1个亿微信用户样本,他们的特征变量不太一样,例如年龄、收入、性格、学历、职业、兴趣、生活作息习惯等等进行初步的量化转化,作为输入变量进行假设分析。
那么这一个亿样本里面,哪些人是能够做为中产阶级,哪些人是可以作为文艺青年?
可以建立文艺青年分类指标,然后分析每个样本个体之间的接近或相似程度,分组建立关联函数。
从直观和简单的分组概念出发,对于庞大的数据,也可以进行客观的统计学分组划分。
这里就会用到聚类分析方法,首先是测量样本个体之间的差异或相似程度。
这里引入空间几何概念,即将每个样本当作一个点,分布在n维空间里,每个维度分别是年龄、收入、性格等。
如果两个变量越接近,我们定义为两个点之间的越相似或亲密,这里使用“距离”的概念进行定义。
如果变量是数值型的变量,而非函数变量。那么可以使用如下几个空间和距离进行量化样本之间的亲密程度。
欧式空间的欧式距离。Euclidean Distance in Euclidean Space.
定义为变量个体差值的平方和的平方根。
平方欧式距离 Squared Euclidean Distance
定义为变量个体差值的平方和,即欧式距离的平方和。
切比雪夫距离Chebychev Distance
定义为变量差值的绝对值得最大值
块距离Block Distance
定义为变量差值的绝对值的总合
明考斯基距离Minkowski Distance
定义为变量差值绝对值的p次方的总和的p次根
夹角余弦距离Cosine Distance
定义为变量乘积的平方的和,除以(单独每个变量自身平方的和,再相乘)
如果变量是计数的离散变量,那么距离就需要用以下方法定义
卡方距离Chi-Square Measure Distance
x,y变量之间的距离定义为x变量的第i个变量与期望值(这里也成为期望频数,例如一个人每天去咖啡馆的平均次数)的差值的平方,除以期望值之后进行汇总计算,再加上y变量的第i个变量与期望值(这里也成为期望频数,例如一个人每天去咖啡馆的平均次数)的差值的平方,除以期望值之后进行汇总计算。然后再开平方。
Phi方距离Phi-Square Measure Distance
和卡方距离的区别在于,是在最后一个开平方之前,先除以总频数n。即加入了总频数的数学考量。
如果变量是二项式数值,即0或1,有或无,是或非的选择,那么距离可以用以下方法定义
简单匹配系数Simple Matching
将2个选择变量进行矩阵组合,然后将一个变量为0,另一个变量为1的频数相加,作为分子,除以分母。分母为矩阵中所有频数的总和。
Jaccard系数
和简单匹配系数的区别在于,分母减去了2个变量都为0的频数,即去掉了同时为0的数据的影响。
有了距离以后,下一步是划分小组,或空间中的小球体,小集合
每个小组或小集合里面有n个样本个体,可以按照不同的原则进行最优分组。例如最近邻距离原则,组内平均链锁距离原则,重心距离,离差平方和距离方法等方法使得分组合理化和优化。
形象点说,就是科学合理的通过数据统计方法将真正的文艺青年分成一组,伪文青分成一组,另类文青分成一组。。。
如果应用于经济学领域,可以将100个国家按照发达指数、开放指数等做分类分层,按照聚类分析碎石图,可以划分层次,将这些国家分为3组、4组或更多组。
分组工具可以使用SPSS等统计分析软件的聚类分析模块来实现。
聚类分析先到这里,我们对空间和距离概念进一步引申
数学上,空间、距离等概念在应用和研究中,进行了进一步的抽象化。
我们常识上或直观上理解的多为欧几里得空间,也就是欧式空间,最常见的是三维欧式空间。即XYZ三个轴是相互垂直的关系,所有点可以通过三个轴对应映射关系进行三点定位。而欧式空间的距离,是两点之间的实际距离。
进一步引申,将三维空间抽象化之后,进行4维、5维乃至n维空间,即有n个相互垂直的坐标系,而每个点可以用n个轴上的映射进行n点定位,这个空间的两点之间的距离定义为两个点第i个坐标上映射的差值的平方和之后再开方。即我们前面提到的欧式空间距离概念。
明考斯基距离是欧式空间距离的进一步推广,如果p设定为2,则为欧式距离,如果p设定为无穷大,则为切比雪夫距离。
从以上数学定义推广过程,我们可以看出,对于数值型的空间概念,是基于欧式空间的引申推广而产生的不同定义,可以应用在合适的场合和情景下。
而距离基于线性结构八大定律之后,构成的向量空间概念,是进一步的抽象,而这个空间里,每个点到空间坐标轴原点的距离,定义为范数norm。如果向量空间定义了范数,则这个空间成为赋范向量空间。
然后进一步抽象:
赋范空间+线性结构⟶>线性赋范空间
如果在线性赋范空间上增加添加内积运算概念,即,使空间中向量在n个维度上映射的分别乘积的和,和向量之间的角度有关,则这个空间称为内积空间。
如果在这个内积空间里,所有的运算的极限运算,仍然在这个空间内,即收敛,那么这个空间就定义为希尔伯特空间Hilbert Space。
如果是基于线性赋范空间+收敛(完备性),则这个空间称为巴拿赫空间Banach Space。
回归到聚类分析,我们进一步将聚类概念进行抽象化
如果是将函数或向量进行聚类,那么函数或向量之间的距离概念,则可以通过以上范数的概念进行进一步分析,而线性赋范空间的概念,为我们为更抽象的点和集合的分组聚类提供了可供探索的工具。
聚类分析或聚类算法在机器学习、数据挖掘等人工智能领域应用较广,它的一个重点特点是通过机器或计算机将大量数据进行自动统计分类,不需要人工参与。
关于希尔伯特空间、巴拿赫空间的聚类问题,可以继续阅读相关文献。
深入阅读:
下面文献可以通过高校邮箱进行注册账号,阅读公开论文。
Clustering via Hilbert space
Clustering in Banach Spaces