机器学习:kmeans可视化

接着上回的工作,对kmeans的结果进行可视化,搜索了一波,
普遍认为 tsne 能够将高维数据降到低维(2,3维),这样可视化之后,就能观察发现该组数据是否可以聚类
我这边,已经聚类过了,用tsne降维可视化一下
参考了这位小伙伴的博客:
https://blog.csdn.net/lbweiwan/article/details/82759670

我稍稍调整了一些代码,可视化顺便把中心点加进去了,需要注意的是,中心点必须和基础数据一并进行tsne降维,否则因为tsne算法的原因,分别计算得到值是不一样的,就不能放在一起画图(具体算法原理,上面链接有分享另一位小伙伴的)

下面是运行的代码,我这边先根据轮廓系数将k设为3

from sklearn.cluster import KMeans
km = KMeans(        n_clusters=3,
                        init='k-means++',
                        n_init=10,
                        max_iter=300,
                        random_state=0      )
km.fit(X_norm)
#将原始数据中的索引设置成得到的数据类别
X_out = pd.DataFrame(X_norm,index=km.labels_)
X_out_center = pd.DataFrame(km.cluster_centers_) #找出聚类中心
#将中心放入到数据中,一并tsne,不能单独tsne
X_outwithcenter=X_out.append(X_out_center)


#用TSNE进行数据降维并展示聚类结果
from sklearn.manifold import TSNE
tsne = TSNE()
tsne.fit_transform(X_outwithcenter) #进行数据降维,并返回结果
X_tsne = pd.DataFrame(tsne.embedding_, index = X_outwithcenter.index)
#将index化成原本的数据的index,tsne后index会变化

import matplotlib.pyplot as plt
#根据类别分割数据后,画图
d = X_tsne[X_tsne.index == 0]     #找出聚类类别为0的数据对应的降维结果
plt.scatter(d[0], d[1],c='lightgreen',
         		marker='o'				)
d = X_tsne[X_tsne.index == 1]
plt.scatter(d[0], d[1], c='orange',
         		marker='o'				)
d = X_tsne[X_tsne.index == 2]
plt.scatter(d[0], d[1], c='lightblue',
         		marker='o'				)
#取中心点,画出
d = X_tsne.tail(3)
plt.scatter(d[0], d[1], c='red',s=150,
         		marker='*'				)
plt.show()

得到下图,多运行几次得到图时不一样的,就是上下左右会颠倒:
机器学习:kmeans可视化_第1张图片
机器学习:kmeans可视化_第2张图片
emmm,可视化结果来看,效果并不好,按最后一张图看,他右上角分的一类,都是偏大的值,可能是的确有个概念想对于其他,他的参数值较大
比如norm之后的第80个概念,“超大盘”
机器学习:kmeans可视化_第3张图片
还有这个概念,“保险重仓”
在这里插入图片描述

好吧,我现在想,对概念这样聚类筛选出好的概念,那我得有好的标准是什么,这样聚类貌似没什么意义,那如果我给出好的标准,就有点像监督学习了

你可能感兴趣的:(机器学习,机器学习)