数据建模-聚类分析-K-Means算法 --聚类可视化工具TSNE

使用TSNE口可视化工具显示 数据建模-聚类分析-K-Means算法

#-*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import pandas as pd
from sklearn.cluster import KMeans


inputfile = '../data/consumption_data.xls'
outputfile = './data_type.xls'

k =3    #聚类的级别
iteration = 500    #剧烈最大循环次数

data = pd.read_excel(inputfile, index_col='Id')
data_zs = 1.0 *(data-data.mean())/data.std()    #数据标准化

model = KMeans(n_clusters=k, n_jobs=4, max_iter=iteration)    #分为k类,并发数4
model.fit(data_zs)    #开始聚类,训练模型

#简单打印结果
r1 = pd.Series(model.labels_).value_counts()    #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_)    #找出聚类中心
r = pd.concat([r2, r1], axis=1)    #横向连接(0是纵向),得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目']    #重命名表头
#print(r)

#详细输出原始数据及其类别

r = pd.concat([data, pd.Series(model.labels_, index=data.index)], axis=1)    #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别']    #重命名表头
r.to_excel(outputfile)    #保存结果

from sklearn.manifold import TSNE    #聚类可视化工具

tsne = TSNE()
tsne.fit_transform(data_zs)    #进行降维
tsne = pd.DataFrame(tsne.embedding_, index=data_zs.index)    #转换数据格式

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

#不同类别用不同颜色和样式绘图

d = tsne[r[u'聚类类别']==0]
plt.plot(d[0], d[1], 'r.')

d = tsne[r[u'聚类类别']==1]
plt.plot(d[0], d[1], 'go')

d = tsne[r[u'聚类类别']==2]
plt.plot(d[0], d[1], 'b*')

plt.show()

输出二维显示如下: 

数据建模-聚类分析-K-Means算法 --聚类可视化工具TSNE_第1张图片

你可能感兴趣的:(Python数据分析与挖掘)