基本知识:
算法标签:聚类、贪心、划分算法
算法目标:使得簇尽可能紧凑和独立(低耦合,高聚合)
评价准则:所有对象的误差平方和
算法复杂度:O(nkt),n是样本数目,k是簇数,t是迭代次数
算法限制:簇的均值是有定义的(标称属性无法计算均值,此时可以改用k众数)
算法缺点:k值需给定,初始点选择对算法有影响,对噪音敏感。
关于k值的选定,初始点的选取,见参考
参考:
http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html