之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。
当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变量取值不是数值,最好先进行LabelEncode,计算速度会更快。
k-modes算法步骤:
1.随机选取k个初始中心点;
2.针对数据集中的每个样本点,计算样本点与k个中心点的距离(这边计算的是汉明距离,为两个样本点不同的属性取值的个数),将样本点划分到离它最近的中心点所对应的类别中;
3.类别划分完成后,重新确定类别的中心点,将类别中所有样本各特征的众数作为新的中心点对应特征的取值,即该类中所有样本的众心;
4.重复步骤2 3,直到总距离(各个簇中样本与各自簇中心距离之和)不再降低,返回最后的聚类结果。
算法总结:
1)基于“众心”的聚类方法;
2)数据变量为类别型的聚类方法;
3)时间复杂度低于K-means和K-medoids聚类;
#加载所需模块
from kmodes import kmodes
import multiprocessing
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
#模型训练不同的类别数对应的SSE及模型
def TrainCluster(df, start_k=2, end_k=20):
print('training cluster')
K = []
SSE = []
silhouette_all = []
models = [] #保存每次的模型
for i in range(start_k, end_k):
kmodes_model = kmodes.KModes(n_clusters=i, n_jobs=multiprocessing.cpu_count())
kmodes_model.fit(df)
a = metrics.silhouette_score(df, kmodes_model.labels_, metric='hamming')
SSE.append(kmodes_model.cost_) # 保存每一个k值的SSE值
K.append(i)
print('{} Means SSE loss = {}'.format(i, kmodes_model.cost_))
silhouette_all.append(a)
print('这个是k={}次时的轮廓系数{}:'.format(i,a))
models.append(kmodes_model) #保存每个k值对应的模型
return(K,SSE,silhouette_all,models)
通过指定不同的类别数k,得到不同的k值对应的SSE值(SSE值即各类别中样本点到中心点的距离之和),进而构建不同的k-modes模型。
#用肘部法则来确定最佳的K值
train_cluster_res = TrainCluster(data,start_k=2, end_k=20)
K = train_cluster_res[0]
SSE = train_cluster_res[1]
plt.plot(K, SSE, 'bx-')
plt.xlabel('聚类类别数k')
plt.ylabel('SSE')
plt.xticks(K)
plt.title('用肘部法则来确定最佳的k值')
plt.show()
不同的k值与SSE值得对应关系,最终画出一条曲线,这条曲线相当于人的手肘,而肘部对应的点就是最佳的k取值点,即曲线的拐点。
#用轮廓系数确定最佳的k值
score = train_cluster_res[2]
#确定了最佳的k值后
models = train_cluster_res[3]
best_model = models[K.index(k)]
#模型评价,计算轮廓系数
silhouette_score = silhouette_score(data,best_model.labels_,metric='hamming')