2013年 机器学习备注【聚类专题】

2月27日,机器学习第一节课,下面是这节课中几个值得注意的要点

聚类(clustering)

1、ground truth :真实值,以后数据的真实值用这个词语表达

2、K-means=EM, 聚类中k均值算法其实就是一个EM算法,其中第二步把数据点归并到相应的中心点为E,根据归并后的数据点进行计算重新产生新的中心点为M,通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的

k均值的缺点

初始时需要指定K值

无法产生凹型的类别,例如香蕉月牙型,只能产生类圆的形状

对孤立点比较敏感,需要降噪处理

3、层次聚类对大规模数据处理是否合适(有待进一步查资料)

合适,叶子节点进行合并需要n^2次的计算,以后类间合并时不再需要计算,算法具体运行时间应该以最底层的叶子节点合并的时间为主。

可以查看发表在《science》上面的一篇论文,链接不详

4、谱聚类中为何要使用矩阵的特征值,特征向量?

从最原始的线性代数角度进行考虑,矩阵是一种线性变化,特征向量就是在这个变化当中不变的向量。说白了就是在变化当中寻找不变的东西。

参考地址:http://www.cnblogs.com/isabelincoln/archive/2009/06/18/1504623.html

3月6日补充:

谱聚类与图的关系:

数据聚类->图分割->图分割规则(求解拉普拉斯矩阵的特征问题L=D-W)【RatioCut, Ncut】

数据点->图的顶点

相互关系->图的边

谱聚类的一般步骤:

输入:聚类数K,原始数据

a、求出邻接矩阵W

b、求拉普拉斯矩阵L L=D-W D为度量矩阵,Dii=∑jWij

c、计算特征向量矩阵U

d、用K-means聚类

输出:k个聚类

只有拉普拉斯矩阵才能按照如下分解

D^(-1/2)WD^(-1/2)=λ1z1z1T+λ2z2z2T+...λnznznT   |λ1|≥|λ2|≥...|λn|

其中每个特征向量彼此正交,如果要分K个类别,只需要取前k项即可,类似于PCA主成分分析法

谱聚类的不足之处:

a、新增节点处理不好,需要重新计算拉普拉斯矩阵

b、计算量大

c、online

5、谱聚类中随机游走的过程?

课后作业





你可能感兴趣的:(2013年 机器学习备注【聚类专题】)