2月27日,机器学习第一节课,下面是这节课中几个值得注意的要点
聚类(clustering)
1、ground truth :真实值,以后数据的真实值用这个词语表达
2、K-means=EM, 聚类中k均值算法其实就是一个EM算法,其中第二步把数据点归并到相应的中心点为E,根据归并后的数据点进行计算重新产生新的中心点为M,通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的
k均值的缺点
初始时需要指定K值
无法产生凹型的类别,例如香蕉月牙型,只能产生类圆的形状
对孤立点比较敏感,需要降噪处理
3、层次聚类对大规模数据处理是否合适(有待进一步查资料)
合适,叶子节点进行合并需要n^2次的计算,以后类间合并时不再需要计算,算法具体运行时间应该以最底层的叶子节点合并的时间为主。
可以查看发表在《science》上面的一篇论文,链接不详
4、谱聚类中为何要使用矩阵的特征值,特征向量?
从最原始的线性代数角度进行考虑,矩阵是一种线性变化,特征向量就是在这个变化当中不变的向量。说白了就是在变化当中寻找不变的东西。
参考地址:http://www.cnblogs.com/isabelincoln/archive/2009/06/18/1504623.html
3月6日补充:
谱聚类与图的关系:
数据聚类->图分割->图分割规则(求解拉普拉斯矩阵的特征问题L=D-W)【RatioCut, Ncut】
数据点->图的顶点
相互关系->图的边
谱聚类的一般步骤:
输入:聚类数K,原始数据
a、求出邻接矩阵W
b、求拉普拉斯矩阵L L=D-W D为度量矩阵,Dii=∑jWij
c、计算特征向量矩阵U
d、用K-means聚类
输出:k个聚类
只有拉普拉斯矩阵才能按照如下分解
D^(-1/2)WD^(-1/2)=λ1z1z1T+λ2z2z2T+...λnznznT |λ1|≥|λ2|≥...|λn|
其中每个特征向量彼此正交,如果要分K个类别,只需要取前k项即可,类似于PCA主成分分析法
谱聚类的不足之处:
a、新增节点处理不好,需要重新计算拉普拉斯矩阵
b、计算量大
c、online
5、谱聚类中随机游走的过程?
课后作业