最近在使用层次聚类时,简单了解了一下合并类簇时所使用的几种linkage方法,在这里作一下简单的总结。
1963年,Ward J H提出了使用离差平方(Error Sum of Square)和或者说是信息缺失量作为目标函数的思想来决定究竟应该怎么一步一步合并小类簇为一个大类簇,他在文献中指出,类簇合并后的离差平方和应当最小,即最好的目标函数就是使得类簇合并后的信息缺失最小。
(1)The first step in grouping is to select two of these n subsets which , when united , will reduce by one the number of subsets while producing the least impairment of the optimal value of the objective function .
(2)The n-1 resulting subsets then are examined to determine if a third member should be united with the first pair or another pairing made in order to secure the optional value of the objective function for n-2 groups.
(3)This procedure can be continued until all n members of original arraty are in one group.
(4)As each union is considered in turn, the value of the corresponding objective function is computed and hypothesized to be "equal to or better than" that of any preceding union.
(5)第一次合并需要计算n(n-1)/2次样本间的相似度,第二次合并需要计算(n-1)(n-2)/2次,以此类推;
1967年,G. N. Lance, W. T. Williams在ward的基础上,于文献中提出了5中计算类簇合并的方法,分别为:
作者在文献中提出了一种组合策略(combinatorial),并提出使用以下线性实例假设上述策略:
假设类簇 Sk=Sp⋃Sq , p,q,k 的样本大小分别为 np,nq,nk 则有 np+nq=nk ,类簇 p 的中心为 xp ,类簇 q 的中心为 xq ,则有类簇 k 的中心为 (npxp+nqxq)/nk ,则类簇 k 与类簇 h 之间的距离为:
1969年,Wishart D在上述基础上,结合信息增益的概念又提出了 ward′smethod ,即是现在的 linkage=“ward” 。该方法的基本思想是:
首先,计算样本两两之间的距离,构成矩阵距离,此时每个样本均为一个类簇,那么每个样本构成的类簇的ESS即离差平方和均为0;
然后,找出距离矩阵中最小的值并将其对应的两个样本合并为一个新类簇;
在接下来的合并类簇中步骤中,依次计算类簇两两结合后ESS的增量(任何两个类簇合并后均会导致新类别的离差平方和较之之前的两个类簇有所增加),新的类簇合并原则是:选择ESS增加最小的那两个类簇进行合并,直到所有的样本合并为一个大类簇为止。
假设数据属于 n×m 的二维矩阵:
The two clusters whose fusion results in the minimum increase in the error sum of squares are combined.
The first fusion clearly involves those two points which are closest.
假设 Xijt 表示包含 kt 个样本的类簇 St 的第 j 样本的第 i 个变量的值, X^jt 表示 St 的第 j 个属性的均值,那么 St 的误差平方和为:
当 Sq 和 Sp 合并为 Sk 后, Sk 与其他的任一个类簇 Sh 的新合并会使得目标函数有一个增加:
由公式(4)得,当两个单个元素进行合并时有:
将公式(7)和(8)结合,可以得到:
综上所述:以上6种均可由 dhk=αpdhp+αqdhq+βdpq+γ|dhp−dhq| 改变不同的系数而得到。
参考文献:
Wakd q H. Hpekakchpcal Gkouppng to Optpmpze an Obqectpve Functpon[q]. Publpcatpons of the Amekpcan Statpstpcal Assocpatpon, 1963, 58(301):236-244.
G. N. Lance, W. T. Wpllpams. A Genekal Theoky of Classpfpcatoky Soktpng Stkategpes 1. Hpekakchpcal Systems[q]. Computek qouknal, 1967, 9(4):373.
Wpshakt D. 256. Note: An Algokpthm fok Hpekakchpcal Classpfpcatpons[q]. Bpometkpcs, 1969, 25(1):165-170.