python 词频统计(jieba库)

#本文以《“十三五”生态环境保护规划》为例,统计其中出现的词频,可以看出国家在生态环境方面的重点。
import jieba 
txt = open("E:/python_xuexi/data_Analyis/十三五环境规划.txt", 
           "r",
           encoding="utf8").read()
words = jieba.lcut(txt)
counts ={}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
#定义关键词items及关键词的个数阈值(30)
items = list (counts.items())
items.sort(key = lambda x:x[1],
          reverse=True)
for i in range (30):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word, count))

统计结果


十三五规划结果.jpg

从图中我们可以看出,国家在十三五期间,“生态”出现的最多依次为建设,环境等,可以看出,国家十三五在生态环境方面的重点为:生态建设、环境保护、治理污染区域,重点突出单元治理,绿色,还有环境风险等。
现在到十三五收官之年,迈入十四五,对比词频统计,可以在宏观方向与十三五的执行也比较一致。可以帮助我们迅速把控国家环境宏观政策。

你可能感兴趣的:(python 词频统计(jieba库))