python小练习:词频统计

题目:对于给出的纯文本文件,统计每个词出现的次数(借助jieba分词)

首先纯文本文件是这样的:地址:E:\python测试资源\test.txt

python小练习:词频统计_第1张图片

(侵删)

每句歌词之间是用空格切开的

思路:使用jieba分词先把歌词切分成词组的形式,然后统计每一个词出现的次数之后,输出到屏幕上。
代码:
 

import jieba
#载入jieba分词
#打开测试的纯文本文件。readline是读入一行内容,读到换行符会停止,但是因为这个文件里所有歌词之间都是由空白符切分的,所以没有问题。返回字符串形式
word = open(r"E:\python测试资源\test.txt",'r').readline()
#检查是否正确读入
print(word)
#jieba.cut()用于对括号内的字符串进行智能切分,返回一个装着每一个词的列表
list = jieba.cut(word)
#创建保存每个词出现次数的列表
getlist={}
#遍历每一个list里的词
for w in list:
    #如果曾经出现过,就把出现次数+1
    if w in getlist:
        getlist[w]+=1
    #如果w从未出现过,就把他加进去并且初始化出现次数为1
    else:
        getlist[w]=1
#输出这个保存着词频信息的列表
print(getlist)

 效果:python小练习:词频统计_第2张图片

python小练习:词频统计_第3张图片

bingo!

你可能感兴趣的:(练习,python)