感谢:
https://www.zybuluo.com/frank-shaw/note/117235
A tutorial on spectral clustering,Ulrike von Luxburg, 2007
背景:
聚类是数据分析的常用技术,人们为了获得对数据的第一印象,尝试
着去辨别每一组的行为相似性。谱聚类是聚类算法的一个大家族,
它通
过线性代数的优化可以比较高效的分类,
相比传统的聚类算法,
如kme-
ans,谱聚类通常有更好的效果。
图的定义:
几种相似度图的构造方法:
三种相似度矩阵的聚类效果:
关于如何选择相似度函数:
谱聚类的结果对相似图挺敏感的,而上面求相似度的方法中k和
,以及
是比较难去选择的,需要根据带处理的数据来进行尝试选择更合理的值。
拉普拉斯矩阵和它的性质:
注意,我们在讲各种拉普拉斯矩阵的时候,都叫拉普拉斯矩阵。
非归一化的拉普拉斯矩阵
定义:
它有如下的性质:
为什么拉普拉斯矩阵的0特征值个数,表示图的连通个数?论文的解释:
首先举例K = 1,这个图是连通的。我们假定 f 特征向量对应的特征值是0.
我们知道
我们拿论文中的一个例子来说吧,一个玩具数据集包含了4个不同的高斯分布组成的200个样本点。
第一行是基于10-近邻图 和 非归一化拉普拉斯矩阵
第二行是基于高斯核函数得到的是一个完全图(单连通,区分度是边权值) 和 非归一化拉普拉斯矩阵
1、看第一行的图,红圈圈住的部分他们的值都比较相近(可以理解为在这个维度方差比较小),我们在看统计直方图,他们在同一个社区中。
2、看第二行的图,第一个特征值为0,对应的特征向量,每个值相同且是一个常量。
因为高斯核得到的是一个完全图,所以是一个带权的单连通图。
第一个特征向量是反映了拉普拉斯矩阵的,0特征向量个数与连通组件个数相同的性质。
后面的三个图则携带了四个社区的一些特性,
看四个红圈中的线,波动是比较小的。不同的圈之间是存在相对较大的波动的。
总结 : 看上面两个图中前四个最小特征值对应的特征向量,同一社区在不同的维度均表现相似,而不同社区的点,在不同维度存在差异。
正规化的拉普拉斯矩阵的性质
正规化拉普拉斯矩阵的一些性质:
拉普拉斯算法的伪代码:
非正规化谱聚类:
基于随机游走的正规化拉普拉斯矩阵的谱聚类
基于对称拉正规化普拉斯矩阵的谱聚类
从图分割的角度来看待谱聚类