谱聚类简明教程(前言)

原文:A Tutorial on Spectral Clustering
https://arxiv.org/pdf/0711.0189
作者:U von Luxburg - ‎2007 - ‎被引用次数:5313

摘要:

    近年来,谱聚类已发展成为最流行的现代聚类算法之一。它实现简单,可以通过标准的线性代数软件有效求解,一般而言效果也优于传统的聚类算法(如k-means算法等)。乍一看,谱聚类非常的神奇,还带着点儿神秘。让人搞不明白它为什么这么work(有效),以及它究竟做了什么。这份教程的目的就是让大家对这些问题有一个基本的了解。我们会首先带领大家学习几种不同的图拉普拉斯算子及其基本属性,然后会向大家介绍几种最常见的谱聚类算法,通过几种不同的方法从头开始推导这些算法,并讨论不同谱聚类算法的优缺点。

1. 前言

    聚类是探索性数据分析中应用最广泛的技术之一,应用范围从统计学,计算机科学,生物学一直到社会科学或心理学。几乎在每一个涉及到经验数据处理的科学领域中,人们都总是试图通过在数据中识别“相似行为”的组合来获得他们对数据的直观感受。在本文中,我们将向读者介绍谱聚类这个算法家族。与k-means或单链接等“传统算法”相比,谱聚类有许多基本的优点。谱聚类得到的结果往往胜过传统方法,并且实现起来非常简单,可以通过标准的线性代数方法有效求解。

    本教程是对谱聚类的一份独立介绍。我们会从头开始了解谱聚类,并从不同的角度了解谱聚类的工作原理。除了基本的线性代数知识,读者不需要任何特定的数学背景。当然,我们并没有试图对整个谱聚类的文献进行简要的回顾,因为关于这个主题的文献实在是太多了。本教程的前两部分将分别介绍谱聚类所使用的数学知识:第2节中会介绍图相似矩阵,第3节中会介绍图拉普拉斯矩阵。

    聚类算法本身将在第4节中进行介绍。之后的三节会详细解释这些算法的工作原理。每一节对应一种解释:第5节描述了一种用图划分的视角看待聚类的方法,第6节是从随机游走的角度,第7节是从摄动理论出发。在第8节中,我们将研究与谱聚类相关的一些实际问题,并在第9节中介绍一些关于谱聚类的其他知识和文献。

你可能感兴趣的:(谱聚类简明教程(前言))