谱聚类的理解

感谢:

    https://www.zybuluo.com/frank-shaw/note/117235

    A tutorial on spectral clustering,Ulrike von Luxburg, 2007

背景:

    聚类是数据分析的常用技术,人们为了获得对数据的第一印象,尝试
着去辨别每一组的行为相似性。谱聚类是聚类算法的一个大家族, 它通
过线性代数的优化可以比较高效的分类, 相比传统的聚类算法, 如kme-
ans,谱聚类通常有更好的效果。

图的定义:



几种相似度图的构造方法:

谱聚类的理解_第1张图片


谱聚类的理解_第2张图片

三种相似度矩阵的聚类效果:

谱聚类的理解_第3张图片

谱聚类的理解_第4张图片

谱聚类的理解_第5张图片

谱聚类的理解_第6张图片


谱聚类的理解_第7张图片


关于如何选择相似度函数:


    谱聚类的结果对相似图挺敏感的,而上面求相似度的方法中k和 ,以及
是比较难去选择的,需要根据带处理的数据来进行尝试选择更合理的值。

拉普拉斯矩阵和它的性质:

     注意,我们在讲各种拉普拉斯矩阵的时候,都叫拉普拉斯矩阵。
谱聚类的理解_第8张图片

非归一化的拉普拉斯矩阵

    定义:


它有如下的性质:


为什么拉普拉斯矩阵的0特征值个数,表示图的连通个数?论文的解释:

首先举例K = 1,这个图是连通的。我们假定 f 特征向量对应的特征值是0.
我们知道
谱聚类的理解_第9张图片

谱聚类的理解_第10张图片



我们拿论文中的一个例子来说吧,一个玩具数据集包含了4个不同的高斯分布组成的200个样本点。


第一行是基于10-近邻图 和 非归一化拉普拉斯矩阵
第二行是基于高斯核函数得到的是一个完全图(单连通,区分度是边权值) 和 非归一化拉普拉斯矩阵

谱聚类的理解_第11张图片

1、看第一行的图,红圈圈住的部分他们的值都比较相近(可以理解为在这个维度方差比较小),我们在看统计直方图,他们在同一个社区中。
2、看第二行的图,第一个特征值为0,对应的特征向量,每个值相同且是一个常量。 因为高斯核得到的是一个完全图,所以是一个带权的单连通图。
     第一个特征向量是反映了拉普拉斯矩阵的,0特征向量个数与连通组件个数相同的性质。 后面的三个图则携带了四个社区的一些特性,
     看四个红圈中的线,波动是比较小的。不同的圈之间是存在相对较大的波动的。

总结 : 看上面两个图中前四个最小特征值对应的特征向量,同一社区在不同的维度均表现相似,而不同社区的点,在不同维度存在差异。

正规化的拉普拉斯矩阵的性质

谱聚类的理解_第12张图片

正规化拉普拉斯矩阵的一些性质:



谱聚类的理解_第13张图片

拉普拉斯算法的伪代码:


非正规化谱聚类:

谱聚类的理解_第14张图片

基于随机游走的正规化拉普拉斯矩阵的谱聚类


基于对称拉正规化普拉斯矩阵的谱聚类


从图分割的角度来看待谱聚类

谱聚类的理解_第15张图片




你可能感兴趣的:(机器学习,谱聚类)