粗学聚类(1)

基础知识

学习聚类之前,需要了解矩阵轮的相关知识,在此先简述拉普拉斯矩阵的相关知识。
拉普拉斯矩阵也称基尔霍夫矩阵
1)定义为 L=DW ,含义为拉普拉斯矩阵=度矩阵-邻接矩阵
2)邻接矩阵:表示顶点间相邻关系的矩阵。A子图与B子图所有边的权值之和为:

W(A,B):=iA,jBWij

3) 度:与某节点定义的所有边的权值。
di=j=1nwij

度的集合则为度矩阵。
拉普拉斯矩阵性质
1)对称半正定
2)最小特征值为零,特征向量为单位向量。
3)有N个非负实特征值,且对任意实向量 fRn 存在
fLf=12i,j=1Nwij(fifj)2

聚类

聚类简而言之就是把一堆样本里,相似的聚在一块。
聚类方法很多:K-means,GMM,层次聚类(hierarchial clustering),谱聚类等等。用matlab实现简单聚类的步骤一般为:
1)计算相似性;
2)定义变量之间的连接;
3)评价聚类信息;
4)聚类。
涉及的函数一般为:pdist ,squareform ,linkage ,dendrogram ,coherent ,cluster ,clusterdata ,scatter3 ,kmeans 等等,详情见matlab帮助文件,help 函数名。

浅谈GMM

统计学模型一般分为:概率模型和非概率模型,从聚类的角度上来说,前者为软分类,后者为硬分类。如何理解软硬?举个例子,某个data集分两类,其中一个样本与A类相似度为51%与B类相似度为49%,软分类面对这种样本就会存在一个“多像”的判断,有利于模型的融合,而硬分类直接将该样本划入A类。
中心极限定理简要介绍:样本量足够大,极限分布趋于高斯分布。
最大似然:使样本点在估计的概率密度函数上概率值最大,常用于参数估计。
GMM(Gaussian Mixture Model):

p(x)=k=1Kαkp(x|k)
K 为模型个数, α 为第k个高斯模型的权重。
log-likelyhood function:
maxi=1Nlog(k=1KαkN(xi|uk,σ2)

用EM算法求极值。

浅谈层次聚类

主要有两种方法:自顶而下,自底而上
总样本为一类–>计算相似度–>划分类
每个样本单独成类–>计算相似度–>合并类
相似度的计算方法有:singleLinkage(取最近的样本距离),completeLinkage(取最远的样本距离),Average-Linkage(两两距离求平均值),average-Linkage(两两距离求中值)。

浅谈谱聚类

类比图分割。谱聚类就是找到一种合理分割的方法。
(未完待续)

以下为转载:http://blog.csdn.net/v_july_v/article/details/40738211
参考文献与推荐阅读
孟岩之理解矩阵系列:http://blog.csdn.net/myan/article/details/1865397;
理解矩阵的12点数学笔记:http://www.51weixue.com/thread-476-1-1.html;
一堆wikipedia,比如特征向量:https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%90%91%E9%87%8F;
wikipedia上关于拉普拉斯矩阵的介绍:http://en.wikipedia.org/wiki/Laplacian_matrix;
邹博之聚类PPT:http://pan.baidu.com/s/1i3gOYJr;
关于谱聚类的一篇非常不错的英文文献,“A Tutorial on Spectral Clustering”:http://engr.case.edu/ray_soumya/mlrg/Luxburg07_tutorial_spectral_clustering.pdf;
知乎上关于矩阵和特征值的两个讨论:http://www.zhihu.com/question/21082351,http://www.zhihu.com/question/21874816;
谱聚类:http://www.cnblogs.com/fengyan/archive/2012/06/21/2553999.html;
谱聚类算法:http://www.cnblogs.com/sparkwen/p/3155850.html;
漫谈 Clustering 系列:http://blog.pluskid.org/?page_id=78;
《Mining of Massive Datasets》第10章:http://infolab.stanford.edu/~ullman/mmds/book.pdf;
Tydsh: Spectral Clustering:①http://blog.sina.com.cn/s/blog_53a8a4710100g2rt.html,②http://blog.sina.com.cn/s/blog_53a8a4710100g2rv.html,③http://blog.sina.com.cn/s/blog_53a8a4710100g2ry.html,④http://blog.sina.com.cn/s/blog_53a8a4710100g2rz.html;
H. Zha, C. Ding, M. Gu, X. He, and H.D. Simon. Spectral relaxation for K-means clustering. Advances in Neural Information Processing Systems 14 (NIPS 2001). pp. 1057-1064, Vancouver, Canada. Dec. 2001;
机器学习中谱聚类方法的研究:http://lamda.nju.edu.cn/conf/MLA07/files/YuJ.pdf;
谱聚类的算法实现:http://liuzhiqiangruc.iteye.com/blog/2117144。

你可能感兴趣的:(聚类)