A cluster ensemble method for clustering categorical data(Information Fusion ‘05)

目录

Research Question

Theory and Method

Experiment

Research Question

Science Question

Categorical data clustering (CDC) and cluster ensemble (CE) have long been considered as separate research and application areas. The main focus of this paper is to investigate the commonalities between these two problems and the uses of these commonalities for the creation of new clustering algorithms for categorical data based on cross-fertilization between the two disjoint research fields.

Core of the research

Define the CDC problem as an optimization problem from the viewpoint of CE, and apply CE approach for clustering categorical data.

Application of existing algorithm

 The clustering technique has been extensively studied in many fields such as pattern recognition [1], customer segmentation[2], similarity search [3] and trend analysis [4].

Research significance of the paper

CDC和CE问题的等价性。

以往都是平行发展,该篇论文指出两个领域是可以相互学习的。

Theory and Method

举一个例子

对于分类数据集,如果把属性值看作是聚类标签,那么每个属性及其属性值都会在数据集上给出一个“最佳聚类”,而不需要考虑其他属性,因此,每个属性的属性值是不同聚类算法的输出。

比如说:

A cluster ensemble method for clustering categorical data(Information Fusion ‘05)_第1张图片

对于 Attribute1 可以分为两类,对于 Attribute2 可以分为3类。

提出 CDC 问题下 CE 的 object function

根据 q 个不同的分区拥有k(q)个不同的clusters, 共识函数可以定义为:

 

对于一个最好的组合,应该共享最多的信息,在信息理论中,互信息是用来衡量两个分布信息共享程度的理论方法。因此可以将A和B两个对应不同的分区对应的不同k值进行金酸,IA,B正在上传…重新上传取消正在上传…重新上传取消表示 A 和 B 的互信息,同时H(A) 和 H(B) 表示 A 和 B 的信息熵。因此, NMI 可以表示为:

引入信息熵和信息增益,公式3可以转化为如下:

 

因此,平均互信息可以定义为:

 

其中,Λ 表示 λq 的合集。

最终,λk-opt 可以定义为在所需的共识cluster数量为k的情况下,与之对应的所有个体λq 拥有最大的平均互信息。

 

λ 表示所有可能的k对应的 λ 值。

由于CDC问题可以被视作一个CE问题,所以公式 (4) 可以当做CDC问题下CE的目标函数。

Cluster ensemble based algorithm

hypergraph-model based algorith

  • CSPA

如果两个物体在同一个聚类中,那么他们就被认为是完全相似的,如果不是,就为不相似。因此对于base clustering都有一个N * N的矩阵,然后使用METIS算法[32]用来构建similarity graph。

  • HGPA

每一个cluster被表示为具有相同权重的 hyperedge,数据对象被认为是具有相同权重的顶点,然后使用超图分割算法 HMETIS 对超图进行分割,使得超图切割的权重之和达到最小化,最终产生的 unconnected components 作为算法的最终输出。

  • MCLA

对HGPA的优化,将每个聚类表示为一个 hyperedge,MCLA的想法是将相关的 hyperedge 进行分组和折叠,那么可以减少 hyperedge 的数量。

Experiment

实验部分比较简单,也只比较了三个数据集。

以上只是个人学习记录,欢迎和我一起讨论~

你可能感兴趣的:(聚类,聚类,数据挖掘,机器学习)