基于k-means和tfidf的文本聚类代码简单实现

俗话说“外行看热闹,内行看门道“,作为一个机器学习的门外汉,刚研究python机器学习scikit-learn两周时间,虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单,但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处,还请你微微一笑,原谅之;当然也非常欢迎你提出建议或指正~

基本步骤包括:
        1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息;
        2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键词;
        3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词);
        4.再使用K-means进行文本聚类(省略特征词过来降维过程);
        5.最后对聚类的结果进行简单的文本处理,按类簇归类,也可以计算P/R/F特征值;
        6.总结这篇论文及K-means的缺点及知识图谱的一些内容。

当然这只是一篇最最基础的文章,更高深的分类、聚类、LDA、SVM、随机森林等内容,自己以后慢慢学习吧!这篇作为在线笔记,路漫漫其修远兮,fighting~


一. 爬虫实现

爬虫主要通过Python+Selenium+Phantomjs实现,爬取百度百科和互动百科旅游景点信息,其中爬取百度百科代码如下。
参考前文:[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒


实现原理:
首先从Tourist_spots_5A_BD.txt中读取景点信息,然后通过调用无界面浏览器PhantomJS(Firefox可替代)访问百度百科链接"http://baike.baidu.com/",通过Selenium获取输入对话框ID,输入关键词如"故宫",再访问该百科页面。最后通过分析DOM树结构获取摘要的ID并获取其值。
核心代码如下:
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS:Selenium更多应用于自动化测试,推荐python爬虫使用scrapy等开源工具。

[python]  view plain  copy
  1. # coding=utf-8    
  2. """  
  3. Created on 2015-09-04 @author: Eastmount   
  4. """    
  5.     
  6. import time            
  7. import re            
  8. import os    
  9. import sys  
  10. import codecs  
  11. import shutil  
  12. from selenium import webdriver        
  13. from selenium.webdriver.common.keys import Keys        
  14. import selenium.webdriver.support.ui as ui        
  15. from selenium.webdriver.common.action_chains import ActionChains    
  16.     
  17. #Open PhantomJS    
  18. driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")    
  19. #driver = webdriver.Firefox()    
  20. wait = ui.WebDriverWait(driver,10)  
  21.   
  22. #Get the Content of 5A tourist spots    
  23. def getInfobox(entityName, fileName):    
  24.     try:    
  25.         #create paths and txt files  
  26.         print u'文件名称: ', fileName  
  27.         info = codecs.open(fileName, 'w''utf-8')    
  28.   
  29.         #locate input  notice: 1.visit url by unicode 2.write files  
  30.         #Error: Message: Element not found in the cache -  
  31.         #       Perhaps the page has changed since it was looked up  
  32.         #解决方法: 使用Selenium和Phantomjs  
  33.         print u'实体名称: ', entityName.rstrip('\n')   
  34.         driver.get("http://baike.baidu.com/")    
  35.         elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")    
  36.         elem_inp.send_keys(entityName)    
  37.         elem_inp.send_keys(Keys.RETURN)    
  38.         info.write(entityName.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行  
  39.         time.sleep(2)    
  40.     
  41.         #load content 摘要  
  42.         elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")  
  43.         for value in elem_value:  
  44.             print value.text  
  45.             info.writelines(value.text + '\r\n')  
  46.         time.sleep(2)    
  47.             
  48.     except Exception,e:    #'utf8' codec can't decode byte    
  49.         print "Error: ",e    
  50.     finally:    
  51.         print '\n'    
  52.         info.close()   
  53.     
  54. #Main function    
  55. def main():  
  56.     #By function get information  
  57.     path = "BaiduSpider\\"  
  58.     if os.path.isdir(path):  
  59.         shutil.rmtree(path, True)  
  60.     os.makedirs(path)  
  61.     source = open("Tourist_spots_5A_BD.txt"'r')  
  62.     num = 1  
  63.     for entityName in source:    
  64.         entityName = unicode(entityName, "utf-8")    
  65.         if u'故宫' in entityName:   #else add a '?'    
  66.             entityName = u'北京故宫'  
  67.         name = "%04d" % num  
  68.         fileName = path + str(name) + ".txt"  
  69.         getInfobox(entityName, fileName)  
  70.         num = num + 1  
  71.     print 'End Read Files!'    
  72.     source.close()    
  73.     driver.close()  
  74.       
  75. if __name__ == '__main__':  
  76.     main()    
运行结果如下图所示:


二. 中文分词

中文分词主要使用的是Python+Jieba分词工具,同时导入自定义词典dict_baidu.txt,里面主要是一些专业景点名词,如"黔清宫"分词"黔/清宫",如果词典中存在专有名词"乾清宫"就会先查找词典。
参考前文:[python] 使用Jieba工具中文分词及文本聚类概念

[python]  view plain  copy
  1. #encoding=utf-8  
  2. import sys  
  3. import re  
  4. import codecs  
  5. import os  
  6. import shutil  
  7. import jieba  
  8. import jieba.analyse  
  9.   
  10. #导入自定义词典  
  11. jieba.load_userdict("dict_baidu.txt")  
  12.   
  13. #Read file and cut  
  14. def read_file_cut():  
  15.     #create path  
  16.     path = "BaiduSpider\\"  
  17.     respath = "BaiduSpider_Result\\"  
  18.     if os.path.isdir(respath):  
  19.         shutil.rmtree(respath, True)  
  20.     os.makedirs(respath)  
  21.   
  22.     num = 1  
  23.     while num<=204:  
  24.         name = "%04d" % num   
  25.         fileName = path + str(name) + ".txt"  
  26.         resName = respath + str(name) + ".txt"  
  27.         source = open(fileName, 'r')  
  28.         if os.path.exists(resName):  
  29.             os.remove(resName)  
  30.         result = codecs.open(resName, 'w''utf-8')  
  31.         line = source.readline()  
  32.         line = line.rstrip('\n')  
  33.           
  34.         while line!="":  
  35.             line = unicode(line, "utf-8")  
  36.             seglist = jieba.cut(line,cut_all=False)  #精确模式  
  37.             output = ' '.join(list(seglist))         #空格拼接  
  38.             print output  
  39.             result.write(output + '\r\n')  
  40.             line = source.readline()  
  41.         else:  
  42.             print 'End file: ' + str(num)  
  43.             source.close()  
  44.             result.close()  
  45.         num = num + 1  
  46.     else:  
  47.         print 'End All'  
  48.   
  49. #Run function  
  50. if __name__ == '__main__':  
  51.     read_file_cut()  
按照Jieba精确模式分词且空格拼接,"0003.txt 颐和园"分词结果如下图所示:


为方便后面的计算或对接一些sklearn或w2v等工具,下面这段代码将结果存储在同一个txt中,每行表示一个景点的分词结果。
[python]  view plain  copy
  1. # coding=utf-8              
  2. import re            
  3. import os    
  4. import sys  
  5. import codecs  
  6. import shutil  
  7.   
  8. def merge_file():  
  9.     path = "BaiduSpider_Result\\"  
  10.     resName = "BaiduSpider_Result.txt"  
  11.     if os.path.exists(resName):  
  12.         os.remove(resName)  
  13.     result = codecs.open(resName, 'w''utf-8')  
  14.   
  15.     num = 1  
  16.     while num <= 204:  
  17.         name = "%04d" % num   
  18.         fileName = path + str(name) + ".txt"  
  19.         source = open(fileName, 'r')  
  20.         line = source.readline()  
  21.         line = line.strip('\n')  
  22.         line = line.strip('\r')  
  23.   
  24.         while line!="":  
  25.             line = unicode(line, "utf-8")  
  26.             line = line.replace('\n',' ')  
  27.             line = line.replace('\r',' ')  
  28.             result.write(line+ ' ')  
  29.             line = source.readline()  
  30.         else:  
  31.             print 'End file: ' + str(num)  
  32.             result.write('\r\n')  
  33.             source.close()  
  34.         num = num + 1  
  35.           
  36.     else:  
  37.         print 'End All'  
  38.         result.close()      
  39.   
  40. if __name__ == '__main__':  
  41.     merge_file()  
每行一个景点的分词结果,运行结果如下图所示:



三. 计算TF-IDF

此时,需要将文档相似度问题转换为数学向量矩阵问题,可以通过VSM向量空间模型来存储每个文档的词频和权重,特征抽取完后,因为每个词语对实体的贡献度不同,所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。

相关介绍:
它表示TF(词频)和IDF(倒文档频率)的乘积:

其中TF表示某个关键词出现的频率,IDF为所有文档的数目除以包含该词语的文档数目的对数值。
|D|表示所有文档的数目,|w∈d|表示包含词语w的文档数目。
最后TF-IDF计算权重越大表示该词条对这个文本的重要性越大,它的目的是去除一些"的、了、等"出现频率较高的常用词。

参考前文:Python简单实现基于VSM的余弦相似度计算
                 基于VSM的命名实体识别、歧义消解和指代消解

下面是使用scikit-learn工具调用CountVectorizer()和TfidfTransformer()函数计算TF-IDF值,同时后面"四.K-means聚类"代码也包含了这部分,该部分代码先提出来介绍。

[python]  view plain  copy
  1. # coding=utf-8    
  2. """  
  3. Created on 2015-12-30 @author: Eastmount   
  4. """    
  5.     
  6. import time            
  7. import re            
  8. import os    
  9. import sys  
  10. import codecs  
  11. import shutil  
  12. from sklearn import feature_extraction    
  13. from sklearn.feature_extraction.text import TfidfTransformer    
  14. from sklearn.feature_extraction.text import CountVectorizer  
  15.   
  16. ''''' 
  17. sklearn里面的TF-IDF主要用到了两个函数:CountVectorizer()和TfidfTransformer()。 
  18.     CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵。 
  19.     矩阵元素weight[i][j] 表示j词在第i个文本下的词频,即各个词语出现的次数。 
  20.     通过get_feature_names()可看到所有文本的关键字,通过toarray()可看到词频矩阵的结果。 
  21.     TfidfTransformer也有个fit_transform函数,它的作用是计算tf-idf值。 
  22. '''  
  23.   
  24. if __name__ == "__main__":  
  25.     corpus = [] #文档预料 空格连接  
  26.   
  27.     #读取预料 一行预料为一个文档  
  28.     for line in open('BaiduSpider_Result.txt''r').readlines():  
  29.         print line  
  30.         corpus.append(line.strip())  
  31.     #print corpus  
  32.     time.sleep(5)  
  33.       
  34.     #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频  
  35.     vectorizer = CountVectorizer()  
  36.   
  37.     #该类会统计每个词语的tf-idf权值  
  38.     transformer = TfidfTransformer()  
  39.   
  40.     #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵  
  41.     tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  
  42.   
  43.     #获取词袋模型中的所有词语    
  44.     word = vectorizer.get_feature_names()  
  45.   
  46.     #将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重  
  47.     weight = tfidf.toarray()  
  48.   
  49.     resName = "BaiduTfidf_Result.txt"  
  50.     result = codecs.open(resName, 'w''utf-8')  
  51.     for j in range(len(word)):  
  52.         result.write(word[j] + ' ')  
  53.     result.write('\r\n\r\n')  
  54.   
  55.     #打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重    
  56.     for i in range(len(weight)):  
  57.         print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"    
  58.         for j in range(len(word)):  
  59.             result.write(str(weight[i][j]) + ' ')  
  60.         result.write('\r\n\r\n')  
  61.   
  62.     result.close()  
  63.       

其中输出如下所示,由于文本摘要不多,总共8368维特征,其中共400个景点(百度百科200 互动百科200)文本摘要,故构建的矩阵就是[400][8368],其中每个景点都有对应的矩阵存储TF-IDF值。

缺点:可以尝试出去一些停用词、数字等,同时可以如果文档维数过多,可以设置固定的维度,同时进行一些降维操作或构建稀疏矩阵,大家可以自己去研究下。
推荐一些优秀的关于Sklearn工具TF-IDF的文章:
        python scikit-learn计算tf-idf词语权重 - liuxuejiang158
        用Python开始机器学习(5:文本特征抽取与向量化) - lsldd大神
        官方scikit-learn文档 4.3. Preprocessing data




四. K-means聚类

其中K-means聚类算法代码如下所示,主要是调用sklearn.cluster实现。
强推一些机器学习大神关于Scikit-learn工具的分类聚类文章,非常优秀:
        用Python开始机器学习(10:聚类算法之K均值) -lsldd大神
        应用scikit-learn做文本分类(特征提取 KNN SVM 聚类) - Rachel-Zhang大神 
        Scikit Learn: 在python中机器学习(KNN SVMs K均) - yyliu大神 开源中国
       【机器学习实验】scikit-learn的主要模块和基本使用 - JasonDing大神
        Scikit-learn学习笔记 中文简介(P30-Cluster) - 百度文库 
        使用sklearn做kmeans聚类分析 - xiaolitnt
        使用sklearn + jieba中文分词构建文本分类器 - MANYU GOU大神
        sklearn学习(1) 数据集(官方数据集使用) - yuanyu5237大神
        scikit-learn使用笔记与sign prediction简单小结 - xupeizhi
        http://scikit-learn.org/stable/modules/clustering.html#clustering

代码如下:

[python]  view plain  copy
  1. # coding=utf-8    
  2. """  
  3. Created on 2016-01-06 @author: Eastmount   
  4. """    
  5.     
  6. import time            
  7. import re            
  8. import os    
  9. import sys  
  10. import codecs  
  11. import shutil  
  12. import numpy as np  
  13. from sklearn import feature_extraction    
  14. from sklearn.feature_extraction.text import TfidfTransformer    
  15. from sklearn.feature_extraction.text import CountVectorizer    
  16.   
  17. if __name__ == "__main__":  
  18.       
  19.     #########################################################################  
  20.     #                           第一步 计算TFIDF  
  21.       
  22.     #文档预料 空格连接  
  23.     corpus = []  
  24.       
  25.     #读取预料 一行预料为一个文档  
  26.     for line in open('BHSpider_Result.txt''r').readlines():  
  27.         print line  
  28.         corpus.append(line.strip())  
  29.     #print corpus  
  30.     #time.sleep(1)  
  31.       
  32.     #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频  
  33.     vectorizer = CountVectorizer()  
  34.   
  35.     #该类会统计每个词语的tf-idf权值  
  36.     transformer = TfidfTransformer()  
  37.   
  38.     #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵  
  39.     tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  
  40.   
  41.     #获取词袋模型中的所有词语    
  42.     word = vectorizer.get_feature_names()  
  43.   
  44.     #将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重  
  45.     weight = tfidf.toarray()  
  46.   
  47.     #打印特征向量文本内容  
  48.     print 'Features length: ' + str(len(word))  
  49.     resName = "BHTfidf_Result.txt"  
  50.     result = codecs.open(resName, 'w''utf-8')  
  51.     for j in range(len(word)):  
  52.         result.write(word[j] + ' ')  
  53.     result.write('\r\n\r\n')  
  54.   
  55.     #打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重    
  56.     for i in range(len(weight)):  
  57.         print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"    
  58.         for j in range(len(word)):  
  59.             #print weight[i][j],  
  60.             result.write(str(weight[i][j]) + ' ')  
  61.         result.write('\r\n\r\n')  
  62.   
  63.     result.close()  
  64.   
  65.   
  66.     ########################################################################  
  67.     #                               第二步 聚类Kmeans  
  68.   
  69.     print 'Start Kmeans:'  
  70.     from sklearn.cluster import KMeans  
  71.     clf = KMeans(n_clusters=20)  
  72.     s = clf.fit(weight)  
  73.     print s  
  74.   
  75.     #20个中心点  
  76.     print(clf.cluster_centers_)  
  77.       
  78.     #每个样本所属的簇  
  79.     print(clf.labels_)  
  80.     i = 1  
  81.     while i <= len(clf.labels_):  
  82.         print i, clf.labels_[i-1]  
  83.         i = i + 1  
  84.   
  85.     #用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数  
  86.     print(clf.inertia_)  

输出如下图所示,20个类簇中心点和408个簇,对应408个景点,每个文档对应聚在相应的类0~19。




五. 结果处理

为了更直观的显示结果,通过下面的程序对景点进行简单结果处理。

[python]  view plain  copy
  1. # coding=utf-8    
  2. import os    
  3. import sys  
  4. import codecs  
  5.   
  6. ''''' 
  7. @2016-01-07 By Eastmount 
  8. 功能:合并实体名称和聚类结果 共类簇20类 
  9. 输入:BH_EntityName.txt Cluster_Result.txt 
  10. 输出:ZBH_Cluster_Merge.txt ZBH_Cluster_Result.txt 
  11. '''  
  12.   
  13. source1 = open("BH_EntityName.txt",'r')  
  14. source2 = open("Cluster_Result.txt",'r')  
  15. result1 = codecs.open("ZBH_Cluster_Result.txt"'w''utf-8')  
  16.   
  17. #########################################################################  
  18. #                        第一部分 合并实体名称和类簇  
  19.   
  20. lable = []       #存储408个类标 20个类  
  21. content = []     #存储408个实体名称  
  22. name = source1.readline()  
  23. #总是多输出空格 故设置0 1使其输出一致  
  24. num = 1  
  25. while name!="":  
  26.     name = unicode(name.strip('\r\n'), "utf-8")  
  27.     if num == 1:  
  28.         res = source2.readline()  
  29.         res = res.strip('\r\n')  
  30.           
  31.         value = res.split(' ')  
  32.         no = int(value[0]) - 1   #行号  
  33.         va = int(value[1])       #值  
  34.         lable.append(va)  
  35.         content.append(name)  
  36.           
  37.         print name, res  
  38.         result1.write(name + ' ' + res + '\r\n')  
  39.         num = 0  
  40.     elif num == 0:  
  41.         num = 1  
  42.     name = source1.readline()  
  43.       
  44. else:  
  45.     print 'OK'  
  46.     source1.close()  
  47.     source2.close()  
  48.     result1.close()  
  49.   
  50. #测试输出 其中实体名称和类标一一对应  
  51. i = 0  
  52. while i < len(lable):  
  53.     print content[i], (i+1), lable[i]  
  54.     i = i + 1  
  55.   
  56. #########################################################################  
  57. #                      第二部分 合并类簇 类1 ..... 类2 .....  
  58.   
  59. #定义定长20字符串数组 对应20个类簇  
  60. output = ['']*20  
  61. result2 = codecs.open("ZBH_Cluster_Merge.txt"'w''utf-8')  
  62.   
  63. #统计类标对应的实体名称  
  64. i = 0  
  65. while i < len(lable):  
  66.     output[lable[i]] += content[i] + ' '   
  67.     i = i + 1  
  68.   
  69. #输出  
  70. i = 0  
  71. while i < 20:  
  72.     print '#######'  
  73.     result2.write('#######\r\n')  
  74.     print 'Label: ' + str(i)  
  75.     result2.write('Label: ' + str(i) + '\r\n')  
  76.     print output[i]  
  77.     result2.write(output[i] + '\r\n')  
  78.     i = i + 1  
  79.   
  80. result2.close()  
输出结果如下图所示,其中label19可以发现百度百科和互动百科的"大昭寺、法门寺"文本内容都划分为一类,同时也会存在一些错误的类别,如Label15中的"橘子洲"。


PS:如果你想进行准确率、回归率、F特征值比较,可以进一步去学习sklearn官方文档。通常的文本数据集的类标如"教育、体育、娱乐",把不同内容的新闻聚在一类,而这个略有区别,它主要是应用于我实际的毕设。



六. 总结与不足

这篇文章更多的是一些基础内容的代码实现,可能对一些初学者有用,同时也是我的在线笔记吧!主要内容包括:
         1.python+selenium爬取
         2.jieba中文分词
         3.sklearn+tfidf矩阵权重计算
         4.kmeans简单实现及结果对比

Kmeans聚类是一种自下而上的聚类方法,它的优点是简单、速度快;缺点是聚类结果与初始中心的选择有关系,且必须提供聚类的数目。
Kmeans的第二个缺点是致命的,因为在有些时候,我们不知道样本集将要聚成多少个类别,这种时候kmeans是不适合的,推荐使用hierarchical 或meanshift来聚类。第一个缺点可以通过多次聚类取最佳结果来解决。

推荐一些关于Kmeans及实验评估的文章:
        浅谈Kmeans聚类 - easymind223
        基于K-Means的文本聚类(强推基础介绍) - freesum
        基于向量空间模型的文本聚类算法 - helld123
        KMeans文档聚类python实现(代码详解) - skineffect
        Kmeans文本聚类系列之全部C++代码 - finallyliuyu
        文本聚类—kmeans - zengkui111

不论如何,最后还是希望文章对你有所帮助!深夜写文不易,且看且珍惜吧~

你可能感兴趣的:(python,word2vec)