利用K-Means聚类算法进行文档聚类

要求:

1将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即离类中心最近的五个文档)。

2距离计算公式,可采用余弦距离,也可用欧式距离。

一、采用余弦距离作为判断

值接近1,夹角趋于0,向量间距离小,表明两个向量越相似

值接近0,夹角趋于90度,向量间距离大,表明两个向量越不相似

参考链接:

使用余弦相似度算法计算文本相似度 - alunbar - 博客园 (cnblogs.com)

二、什么是K-Means聚类算法

百科结果:

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:

1)没有(或最小数目)对象被重新分配给不同的聚类。

2)没有(或最小数目)聚类中心再发生变化。

3)误差平方和局部最小。

三、实现步骤

(1)选取聚类中心个数k=20,选取要聚类的文档所在文件夹路径fpath

(2)开始聚类

        1、直接打开要处理的文档所对应的已经预处理过后的文档(预处理:中文使用jieba分词并删去中文停用词;停用词包含标点等等。英文将单词统一为小写,删去英文停用词,再使用nltk实现英文Porter Stemming功能)。

        2、得出词典,将文档向量化,按  “一、采用余弦距离作为判断”  中的方法。

        3、随机选取k个对象作为初始的聚类中心。

        4、计算每个文档与k个聚类中心的余弦距离,将每个文档分配给距离它最近的聚类中心。

        5、重新计算每个聚好的文档类的中心。

        6、判断新中心与原中心相似度。如果相似度高,保留原中心作为聚类中心;否则将新中心作为聚类中心。

        7、是否每个聚类中心都无变化。若否,进行4、5、6;若是,迭代结束,记录下此时的结果(k个聚类中心的值,每类中所有文档序号及对应余弦距离),进行8。

        8、将每个聚类中心对应的文件序号按余弦距离从大到小排序,再将所有聚类中心按每类文档数从大到小排序。

(3)输出运行结果

四、运行举例

英文文档聚20个类

k = 20     fpath = "D:\\.sousuoyinqing\\English_Text"

原文档内容:

利用K-Means聚类算法进行文档聚类_第1张图片

处理后的文档内容:

利用K-Means聚类算法进行文档聚类_第2张图片

聚类后结果:

利用K-Means聚类算法进行文档聚类_第3张图片

 利用K-Means聚类算法进行文档聚类_第4张图片

利用K-Means聚类算法进行文档聚类_第5张图片

五、我的代码+中英文文档附件(文档包含预处理前后的文档)

(23条消息) 利用K-Means聚类算法进行文档聚类(python代码+中英文文档)-搜索引擎文档类资源-CSDN文库

六、参考网页链接(这个超棒!!!)

Kmeans文档聚类算法实现之python - 醉曦 - 博客园 (cnblogs.com)

你可能感兴趣的:(互联网搜索引擎,聚类,算法,kmeans)