#! python3
# -*- coding: utf-8 -*-
import os, codecs
import jieba
from collections import Counter
def get_words(txt):
seg_list = jieba.cut(txt)
c = Counter()
for x in seg_list:
if len(x)>1 and x != '\r\n':
c[x] += 1
print('常用词频度统计结果')
for (k,v) in c.most_common(100):
print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))
if __name__ == '__main__':
with codecs.open('19d.txt', 'r', 'utf8') as f:
txt = f.read()
get_words(txt)
样本:十九大报告全文
常用词频度统计结果
发展 ********************************************************************** 212
中国 ******************************************************** 168
人民 **************************************************** 157
建设 ************************************************* 148
社会主义 ************************************************ 146
坚持 ******************************************* 130
国家 ****************************** 90
全面 ***************************** 88
制度 *************************** 83
实现 *************************** 83
推进 *************************** 81
政治 ************************** 80
社会 ************************** 80
特色 ************************** 79
加强 *********************** 71
体系 ********************** 68
文化 ********************** 66
我们 ********************* 64
时代 ********************* 63
必须 ******************** 61
经济 ******************* 59
伟大 ******************* 58
完善 ***************** 51
我国 **************** 50
推动 *************** 47
现代化 *************** 47
安全 *************** 46
更加 ************** 44
民主 ************** 44