机器学习:原型聚类-k均值算法k-means(附代码实现)

我的小程序:

机器学习:原型聚类-k均值算法k-means(附代码实现)_第1张图片 待办计划:给自己立个小目标吧!

首先,聚类的目的是将样本划分为若干个通常不相交的子集,子集内部的样本存在着某种潜在的关系。

k均值算法受以下因素影响:样本输入顺序,模式相似性测度,初始类中心的选取

k均值算法的核心思想是最小化如下的平方误差:

机器学习:原型聚类-k均值算法k-means(附代码实现)_第2张图片

这个式子表达了聚类内的样本和该聚类的均值向量的紧密程度,E越小则聚类内的样本越紧密。

然而,最小化这个式子是NP难问题,不能快速解决。k均值算法采用了迭代优化的贪心算法:

机器学习:原型聚类-k均值算法k-means(附代码实现)_第3张图片

为了避免运行时间过长,可以认为设定循环轮数或最小调整的幅度阈值。

下图是经过不同迭代轮数后的聚类效果(k=3):

机器学习:原型聚类-k均值算法k-means(附代码实现)_第4张图片

python代码实现:

#聚类数
k = 3
#迭代轮数
for l in range(loops):
    #均值向量是否更新初始化
    mp_refreshed = False
    #聚类结果
    result = {0:[],1:[],2:[]}
    #将全部样本分配到各个聚类
    for i in range(len(x)):
        min_dist = sum((x[i]-mean_point[0])**2)
        #样本所属聚类
        k_flag = 0
        #样本分配到距离最近的聚类
        for j in range(1,k):
            #样本离均值向量的距离
            dist = sum((x[i]-mean_point[j])**2)
            if dist
机器学习:原型聚类-k均值算法k-means(附代码实现)_第5张图片 待办计划:给自己立个小目标吧!

 

参考资料:周志华《机器学习》

相关博文:

机器学习:聚类-性能度量指标简介(附代码实现)

机器学习:聚类-闵科夫斯基距离和无序属性的VDM距离计算

机器学习:原型聚类-学习向量量化LVQ算法浅析(附代码实现)

你可能感兴趣的:(机器学习,k均值算法,k-means算法,聚类算法)