Kmeans Clustering(K-means聚类)

Kmeans Clustering

Kmeans算法是将一些杂乱无章的数,分为若干个类的一种聚类方法

实现原理:(借助网上的一张截图)

Kmeans Clustering(K-means聚类)_第1张图片

算法步骤:(k表示聚类中心的个数,上图为3

  (1随机选取任意k个对象作为初始聚类中心,初始代表一个簇;

  (2)计算点到质心的距离,并把它归到最近的质心的类;

  (3)重新计算已经得到的各个类的质心;

  (4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。


K-means算法的优缺点:

1.效果好,不易受初始值得影响

2.不能处理非球形的簇

3.不能处理不同尺寸,不同密度的簇

4.容易受孤立点的影响(需要我们人为干预,进行剔除)

Kmeans Clustering(K-means聚类)_第2张图片


常用的距离算法:

1.欧几里得距离

Kmeans Clustering(K-means聚类)_第3张图片

2.余弦相似度

Kmeans Clustering(K-means聚类)_第4张图片




你可能感兴趣的:(kmeans)