汉语词频统计

该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。

汉语中常见的停用词:我们,这里,但是,的,然而之类的词语,对于文章表达的主旨没有太大的影响。

十九大报告链接:

链接:https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg
提取码:ne3l

#打开文件并读取文本内容
f = open('D:\\py_dataset\\十九大报告.txt','r',encoding = 'utf-8')
txt = f.read()

#切分词语,使用jieba分词器
import jieba
words = jieba.lcut(txt)

#查看总的词语数量
print(len(words))
#17961

#查看单独词语的数量
print(len(set(words)))
#3349

#词频统计,统计长度大于1的词,因为长度为一的词基本上都是停用词
counts = {}
for word in words:
    if len(word) > 1:
        counts[word] = counts.get(word,0)+1 #使用了字典的get方法
        
#将counts转化为列表格式
counts = list(counts.items())

#对词频进行排序
counts.sort(key = lambda x:x[1],reverse = True)

#打印频率最高的前10个词
for i in range(10):
    print(counts[i][0],counts[i][1])
# 发展 212
# 中国 169
# 人民 157
# 建设 148
# 社会主义 147
# 坚持 131
# 全面 90
# 国家 90
# 实现 83
# 制度 83    

由上面的统计结果可以看出,“发展”、“人民”、“社会主义”、“制度”等词语出现的频率最高,基本上我们就了解了十九大报告主要是在论述社会主义制度建设。

你可能感兴趣的:(自然语言处理)