reading list - Spectral Cluster

精读:

[1] 2007 Springer. Ulrike von Luxburg, A Tutorial on Spectral Clustering.

    介绍了laplacian graph,similarity graph等谱聚类基础知识,以及利用三种laplacian graph进行聚类的谱聚类算法极其来由。最后介绍了诸如拉普拉斯矩阵的选择,聚类参数的选择,特征向量的求解等子问题的求解方法和进展。

[2] 2004 IEEE. Charless Fowlkes, Serge Belongie, Fan Chung, and Jitendra Malik, Spectral Grouping Using the Nystrom Method.
    介绍了将用于求解积分方程的Nystrom method通过变换,用于聚类算法的方法,这么做的好处,是通过对数据集中的抽样数据集进行Nystrom approximation,通过样本集的相似度矩阵估算出整个数据集的相似度矩阵,通过样本集的拉普拉斯矩阵的特征向量估算出整个数据集的拉普拉斯矩阵的特征向量,从而大大降低了处理大数据谱聚类问题的计算开销。
 
[3] 2008 ICML. Kai Zhang, Ivor W.Tsang, James T.Kwok, Improved Nystrom Low-Rank Approximation and Error Analysis.
    小秩矩阵估计有许多方法,贪心算法,Nystrom Method和随机化算法。而其中Nystrom的性能和效率较高。该文首先对Nystrom approximation进行误差分析,并据此提出用KM算法求解landmark points从而得到样本集,并验证了这种方法由从算法的时间复杂度和为Nystrom low-rank approximation抽样时所带来的误差大小上,效果都优于前面三种抽样方法。
 
[4] 2009 KDD - Fast Approximating Spectral Clustering
    说明了Nystrom low-rannk approximation的缺陷:
1,抽样时,并不关系相似度矩阵包含的信息(描述太抽象,不理解)。
2,空间复杂度大(不仅使用了样本集,未被采样的数据点集合也参与了计算,参考精读[2],C是由A和B同时参与计算得到的)
3,如果原数据集是不平衡(unbalanced,这个概念在 2007 IEEE  A Tutorial on the spectral clustering 中提到,和指示向量是否相互正交化有关)的,可以用于计算的样本集将会很小,这将很大程度影响最后计算结果的准确度。(精读[3]中提到,用k_means方法采样使得Nystrom low-rank approximation的误差达到接近最小化的程度,但确实也回避了原数据集不平衡的问题)
    随后提出了自己的框架FASP,并在此框架下设计了采用K-Means的KASP和采用随机游走的RASP,通过实验说明了框架的优势:在聚类效果上牺牲了极小的代价,换来了计算的时间复杂度和空间复杂度很大的节约。随后通过微扰理论为框架提供了一定的理论支持。(个人认为该文章是先作出FASP优于其他算法的猜想,再用实验验证,最后理论上分析算法的误差和性能。)
 
泛读:
[1] 1997 Graph Theory, Combinatorics and Application. Bojan Mohar, THE LAPLACIAN SPECTRUM OF GRAPHS.(被精读[1]所引用)
    系统地介绍了拉普拉斯图极其性质。
 

你可能感兴趣的:(cluster)