今天真是没想到能做出聚类

最近,真是情场上失意,事业上得意啊


下面叙述一下流程:

1.在要处理的几万条数据中取出10条做实验

今天真是没想到能做出聚类_第1张图片

2.分词、提取特征值(这两步放在一块说)

具体程序就不贴了,

每句话做一个预处理去掉没用的信息,

然后每句话提取三个特征词,结果如下:

今天真是没想到能做出聚类_第2张图片

3.聚类

我使用的是余弦相似度的方法聚类

生成一个21维的对应空间,它们的坐标如下:

今天真是没想到能做出聚类_第3张图片

然后求第一个和其他信息的相似程度

今天真是没想到能做出聚类_第4张图片

只有一条判断错了,第六条判断错误了,

这个是特征值出了问题,

我已知道怎么优化了,


第一次做就做出来了,我很开心!

有条把条不准确也很正常,结果就一条,只有一条少判了,也没有多判的,

我很开心啊!

你可能感兴趣的:(今天真是没想到能做出聚类)