K—means算法实现流程

K-means 算法实现流程

给定n个对象的数据集D,以及要生成的簇的数目k。把n个对像的集合分成k个簇,使得簇内的相似度高,簇间的相似度低。


1、从数据集D中随机取k个元素,作为k个簇的各自的中心
2、分别计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇
3、根据聚类结果,重新计算k个簇各自的中心,取簇中所有元素各自维度的算术平均值
4、将D中全部元素按照新的中心重新聚类
5、重复第4步,直到聚类结果不再变化
6、输出结果


K-means的缺点:
1. 对于噪声和离群点数据是敏感的,因为少量这类数据能够对均值产生极大的影响。
2. 聚类前,用户必须给出簇的数目k和随机选取的k个点

你可能感兴趣的:(机器学习/云计算)