《集体智慧编程》第3章 发现群组 个人笔记

第3章 发现群组

1、分级聚类

分级聚类通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中每个群组都是从单一元素开始的,在每次迭代的过程中,分级聚类算法计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去,直到只剩一个群组为止。
由于整个计算过程可能会非常耗时,所以不妨将每个配对的相关度计算结果保存起来,直到配对中的某一项被合并到另一个聚类中为止。

2、K-Means聚类

首先会随机确定k个中心为止,然后将各个数据项分配给最临近的中心点,然后更新聚类中心,重新分配,直至分配过程不再产生变化为止。

Tanimoto系数,代表的是交集与并集的比率。

3、多维缩放

算法根据每对数据项之间的差距情况,绘制出一副二维图,图中个数据项之间的距离远近,对应于它们彼此间的差异程度。
针对每两两构成的一对数据项,我们将它们的目标距离与当前距离进行比较,并求出一个误差值。根据误差值的情况按照比例将每个数据项的所在位置移近或移远少许量。每一个节点的移动,都是所有其他节点施加在该节点上的推拉综合效应。节点每移动一次,其当前距离和目标距离间的差距就会减少一些。这一过程会不断地重复多次,直到我们无法再通过移动节点来减少总误差为止。

你可能感兴趣的:(集体智慧编程,集体智慧编程)