Python实现K-means 聚类

K-means实验原理

k-means算法是基于原型的聚类算法。给定聚类簇数k后,k-means算法把数据样本划分到k个簇中,使得组内平方和(within-cluster sum of squares)最小。直观来看,该式衡量了簇内样本围绕簇均值向量的紧密程度,越小则簇内样本相似程度越高。

要找到最小的簇划分需要考察所有可能的簇划分,这是一个NP难问题。k-means算法采取了贪心策略,通过迭代优化来近似求解。K-means算法首先选择k个样本作为初始均值向量,每次迭代都根据样本到均值向量的距离更新簇划分,再用新的簇划分更新均值向量,直到均值向量不再改变。

k-means算法需要手动选择一个超参数k,选取不同的初始均值向量也可能会得到不同的聚类结果。

实验内容

编写k-means代码,使用iris(鸢尾花)数据集的最后两维特征(iris_2features.txt)进行聚类实验。
尝试使用不同的聚类簇数(k=1, 2, 3, 4, 5),随机选择多组初始均值向量进行实验。计算聚类簇数k=3时的Rand指数,计算k=1, 2, 3, 4, 5时的DB指数,并可视化展示聚类结果。

代码如下

#导入相关库
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
import csv

#读取数据集
target2num = {'Iris-setosa':0, 
              'Iris-versicolor':1, 
              'Iris-virginica':2}

with open('iris_2features.txt') as csvfile:
    lines = csv.reader(csvfile)
    dataset = list(lines)
    x = np.array([sample[0:2] for sample in dataset], dtype=np.float)
    y = np.array([target2num[sample[2]] for sample in dataset])

#Rand指数
def rand(y1, y2):
    m = y1.shape[0]
    a, d = 0, 0
    for i in range(m):
        for j in range(i+1, m):
            if y1[i] == y1[j] and y2[i] == y2[j]:
                a += 1
            elif y1[i] != y1[j] and y2[i] != y2[j]:
                d += 1
    return 2*(a+d)/(m*(m-1))
    
#K-means聚类
print('真实情况')
plt.scatter(x[:, 0], x[:, 1], c=y)
plt.show()

ks = [2, 3, 4, 5]

for k in ks:
    print('k = {}'.format(k))
    y_pred = KMeans(n_clusters=k).fit_predict(x)
    ri = rand(y, y_pred)
    print('Rand指数 = {}'.format(ri))
    db = metrics.davies_bouldin_score(x, y_pred)
    print('DB指数 = {}'.format(db))
    plt.scatter(x[:, 0], x[:, 1], c=y_pred)
    plt.show()
    

实验结果

Python实现K-means 聚类_第1张图片
Python实现K-means 聚类_第2张图片
Python实现K-means 聚类_第3张图片
Python实现K-means 聚类_第4张图片
Python实现K-means 聚类_第5张图片

你可能感兴趣的:(Python,聚类,python,kmeans)