python 基于jieba模块进行中文分词词频统计

jieba官方文档:github

# encoding=utf-8
import jieba
import jieba.analyse
txt = open('Chinese.txt',"r")
seg_txt=[]
for line in txt:
    #第一行是关键词提取。
    #第二行是分词提取
    #第三行是关键词提取(与第一行算法有差异)
    seg_list = jieba.analyse.extract_tags(line.strip('\n\r\t'))
    #seg_list = jieba.lcut(line.strip('\n\r\t'))
    #seg_list = jieba.analyse.textrank(line.strip('\n\r\t'))
    seg_txt.extend(seg_list)
#至此所有的中文词以list的形式存到了seg_txt中。  

#下面进行词频排序,由高到底。 
word_dict={}
for item in seg_txt:
            if item not in word_dict:
                word_dict[item] = 1
            else:
                word_dict[item] += 1

number=list(word_dict.items())
number.sort(key=lambda x:x[1], reverse=True)
i=0
while i<100:
    print number[i][0],number[i][1]
    i=i+1

你可能感兴趣的:(python,python,算法)