Kmeans聚类(手写数字识别)

Kmeans算法原理:在给定K个初始聚类中心点的情况下,(1)把数据中的每个样本分到离其最近的聚类中心所代表的类中。(2)分类完后计算从新每个类的中心点(取平均值),然后进行迭代从新第(1)步和第(2)步。直到类中心点的变化很小,或者达到指定迭代次数。

具体实现步骤(matlab)可参考:(145条消息) Kmeans聚类算法详解_思绪无限的博客-CSDN博客_kmeans聚类算法

Python中在sklearn库有KMeans函数可调用。我实现的是直接调用,数据集在模板匹配算法中给出。

import numpy as np
import scipy.io as sio
from sklearn import metrics
from sklearn.cluster import KMeans


#读取训练和测试数据和标签,二维数组转换成一纬
train_data = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_images.mat')
key_train  = list(train_data.keys())[-1]
train      = train_data[key_train]
train      = np.reshape(train,(784,60000)).transpose()


train_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/train_labels.mat')
key_label   = list(train_data2.keys())[-1]
train_label = train_data2[key_label].transpose()


test_data  = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_images.mat')
key_test   = list(test_data.keys())[-1]
test       = test_data[key_test]
test       = np.reshape(test,(784,10000)).transpose()


test_data2 = sio.loadmat('./课程数据集/mat格式的MNIST数据/test_labels.mat')
test_key   = list(test_data2.keys())[-1]
test_label = test_data2[test_key].transpose().flatten()


#调用Kmeans函数聚类
kmeans = KMeans(n_clusters=10)
kmeans.fit(train)


#统计预测结果
pred = kmeans.predict(test)
print("随机兰德调整指数:" +str(metrics.adjusted_rand_score(test_label,pred)))

correct =0
for i in range(10000):
    if pred[i] == test_label[i]:
        correct+=1
print("测试集的准确率为:" + str(correct/10000))

你可能感兴趣的:(模式识别与机器学习,聚类,kmeans,matlab)