论文题目:《Self-Tuning Spectral Clustering 》
发表时间:NIPS 2004
论文作者及单位:
论文地址:http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=BC4F7D591F25F3872ACBA2CF58354C9C?doi=10.1.1.84.7940&rep=rep1&type=pdf
我们研究了谱聚类中的一些开放性问题,主要有:(i)选择合适的分析尺度,(i i)处理多尺度数据,(i i i)不规则背景杂波聚类,以及(iv)自动查找组数。我们首先提出一个“局部”尺度来计算每对点之间的亲和力。这种局部缩放会导致更好的集群,尤其是当数据包含多个尺度以及集群放置在杂乱的背景中时。我们进一步提出利用特征向量的结构来自动推断群的数目。这就产生了一种新的算法,可以省略掉最终随机初始化的k均值操作。
1、聚类是现代数据分析的基本组成部分之一。常用的两种方法是k-均值法和用em学习混合模型,这些方法基于对数据的显式模型的估计,当数据的分布和事先假定的模型匹配度很高时,它们能够提供高质量的结果。然而,当数据以更复杂和未知的形状排列时,这些方法往往会失败。另一种用于处理此类结构化数据的聚类方法是谱聚类,它不需要预先估计数据分布的显式模型,而只需要对点到点相似性矩阵进行光谱分析。尽管谱聚类能够解决传统聚类方法无法解决的一部分问题,但其仍存在着以下几个缺陷
本文主要针对以上三个问题,对现有谱聚类算法进行了改进。
2、介绍了本文的baseline:Notation and the Ng-Jordan-Weiss (NJW)算法的原理。
3、本文提出了Local Scaling方法来对不同尺度数据自动选择合适的。
4、分别分析了使用特征值和特征向量来解决自动产生聚类组数的可行性,最终选择了特征向量。
5、详细介绍了本文提出的新的算法。
实践过谱聚类的人都知道,选择好的参数来调整聚类过程是一门需要技巧和耐心的艺术。谱聚类的自动化是本文研究的主要动机,我们引入的关键思想有三个:(a)使用局部尺度,而不是全局尺度,(b)根据数据估计尺度,(c)旋转特征向量以创建最大稀疏表示。提出了一种基于这些思想的自动谱聚类算法:自动计算谱的尺度和群的个数,并能处理多尺度数据,这对于以前的方法有很大的改进。