【机器学习】层次聚类-Agglomerative clustering

【机器学习】层次聚类-Agglomerative clustering

Agglomerative clustering从 N N N个簇开始,每个簇最初只包含一个对象,然后在每个步骤中合并两个最相似的簇,直到形成一个包含所有数据的簇。

合并过程可以用二叉树(binary tree) 表示,称为树状图(dendrogram)。初始簇位于叶节点(图的底部),每当两个簇合并时,我们就将它们联接到树中。分支的高度表示正在加入的簇之间的差异。树的根(在顶部)表示包含所有数据的簇。如果我们在任何给定的高度砍树,我们会得到一个给定大小的集群。
【机器学习】层次聚类-Agglomerative clustering_第1张图片
实际上,根据我们如何定义不同簇之间的差异,Agglomerative clustering有三种变体。
【机器学习】层次聚类-Agglomerative clustering_第2张图片
【机器学习】层次聚类-Agglomerative clustering_第3张图片
【机器学习】层次聚类-Agglomerative clustering_第4张图片
【机器学习】层次聚类-Agglomerative clustering_第5张图片

Single link

单链接聚类(single link clustering)也叫最近邻聚类(nearest neighbor clustering)。两个簇之间的距离定义为两簇中离得最近的两个元素之间的距离:
在这里插入图片描述
计算复杂度为 O ( N 2 ) O(N^{2}) ON2

Complete link

complete link clustering也叫最远邻聚类( furthest neighbor clustering)。两个簇之间的距离定义为两簇中离得最远的两个元素之间的距离:
在这里插入图片描述
单链接聚类只需要一对对象很近,两个簇就可以认为很近,而不考虑组中其他成员的相似性。因此,可以形成违反紧性(compactness) 的集群,紧性是指一个组内的所有观察结果应该彼此相似。特别是如果我们定义一个组的直径(diameter) 为其成员的最大的不同时,我们可以看到,单链接聚类可以产生大直径的集群。complete link clustering则代表了相反的极端:只有当两个簇的所有观察结果都比较相似时,才认为它们是相近的。这将倾向于产生小直径的集群,即紧凑的集群。

Average link

在实际应用中,首选的方法是平均链接聚类(average link clustering),测量所有对之间的平均距离:
在这里插入图片描述
是上面两种聚类方式的折中,得到的是相对紧密的集群。

你可能感兴趣的:(机器学习)