python3实现kmeans算法

1.定义计算距离的函数

def distEclud(vecA,vecB):
    # vecA,vecB是数组形式,列表形式不行
    return sum((vecA-vecB)**2)**0.5

vecA,vecB是1行n列的形式,也就是一个样本。

欧式距离的计算过程:

两数组各个元素相减,然后各个元素平方,再求和,最后取平方根

验证:

a = np.array([1,1,1])
b = np.array([1,1,1])
distEclud(a,b)
0.0

2.初始质心

采用随机质心的方式,并认为输入聚类的个数k

2.1 质心的选取,采用随机数的方式


 某一个特征的质心= 该特征所有数据的最小值 + (该特征所有数据的最大值 - 该特征所有数据的最小值)*介于0与1之间的数
 这样计算的随机质心介于该特征所有数据的最小值与最大值之间
 产生0与1之间的随机数,用random.random()函数

2.2 质心的保存形式

假设数据集m*n,m是样本个数,n是特征个数

质心用一矩阵表示,k*n的形式,k是聚类的个数,n是数据集的特征个数,也就是列的个数。

利用random()产生随机数

产生0-1之间正态分布的随机数

np.random.random([6,4])
array([[0.64607401, 0.52570793, 0.15964976, 0.95678322],
       [0.164921  , 0.873055  , 0.15482344, 0.6719892 ],
       [0.57528035, 0.39889115, 0.04791323, 0.50232192],
       [0.67930956, 0.50480101, 0.1503649 , 0.07632118],
       [0.25051804, 0.30921045, 0.48335007, 0.92678022],
       [0.83147322, 0.89722439, 0.71011047, 0.86964961]])

产生介于两个整数之间的随机整数

np.random.randint(1,10,[6,4])
array([[5, 2, 6, 7],
       [6, 7, 9, 1],
       [1, 1, 3, 4],
       [1, 9, 7, 4],
       [8, 9, 9, 2],
       [9, 9, 6, 6]])

2.3 产生随机质心函数

import numpy as np
def randCent(dataset,k):
    # dataset要聚类的数据集,k是聚类的个数
    n = np.shape(dataset)[1] # 列的个数
    centroids = np.mat(np.zeros([k,n])) # 质心的存储形式
    for i in range(n):
        maxi = max(dataset[:,i])
        mini = min(dataset[:,i])
        centroids[:,i] = mini + (maxi-mini)*np.random.random([k,1]) # 填充质心矩阵的第i列
    # n 次循环完毕,质心矩阵填充完成
    return centroids

2.4 函数验证

产生数据集

dataset = np.random.randint(1,20,[20,5])
array([[16, 13, 19,  8,  5],
       [ 6,  2, 14,  1,  4],
       [ 6, 16,  7,  9, 10],
       [ 6,  4,  7,  1, 16],
       [19, 19, 11, 11, 15],
       [ 4, 13, 12, 12, 10],
       [ 3, 17,  6,  9,  1],
       [ 3,  6, 19, 17, 12],
       [ 4, 18,  8, 15,  4],
       [ 9,  9,  2, 16, 12],
       [ 4, 12,  2,  8, 13],
       [14, 18, 10, 15,  4],
       [ 5, 10, 13,  3,  5],
       [18, 16,  9, 13, 12],
       [18,  8,  6, 11,  3],
       [14, 17,  2,  5,  3],
       [ 2, 12,  8, 18,  6],
       [ 7, 19,  8,  9,  5],
       [ 1,  2, 11, 18,  6],
       [ 9,  6,  1, 13, 13]])

验证:

dataset = np.random.randint(1,20,[20,5])
randCent(dataset,3)
matrix([[13.50932825,  3.50096664,  4.0133367 ,  8.32287815,  9.9190632 ],
        [ 2.17735115,  7.40041965, 11.18187195, 13.82336056,  1.00988238],
        [14.8503211 , 15.83460912, 16.37241072, 12.78929486, 12.18385361]])

结果是3*5的,且介于最小值与最大值之间。

3 kmeans算法实现

def kmeans0(dataset,k):
    m = np.shape(dataset)[0] # 样本的个数
    clusterAssment = np.mat(np.zeros((m,2))) # 保存每个样本的聚类情况,第一列表示该样本属于某一类,第二列是与聚类中心的距离
    centroids = randCent(dataset,k) # 调用函数产生随机质心
    clusterChanged = True # 控制聚类算法迭代停止的标志,当聚类不再改变时,就停止迭代
    while clusterChanged:  
        clusterChanged = False # 先进行本次迭代,如果聚类还是改变,最后把该标志改为True,从而继续下一次迭代
        for i in range(m): # 遍历每一个样本
            # 每个样本与每个质心计算距离
            # 采用一趟冒泡排序找出最小的距离,并找出对应的类
            # 计算与质心的距离时,刚开始需要比较,记为无穷大
            mindist = np.inf
            for j in range(k): # 遍历每一类
                distj = distEclud(dataset[i,:],centroids[j,:])
                if distj

 

你可能感兴趣的:(机器学习实战,机器学习实战)