Python 利用nltk,jieba库统计词频并导入csv文件

利用Python的nltk模块进行词频统计:
示例的negreview.txt 链接见:
链接:https://pan.baidu.com/s/10XJiJtzjhVauGJ8vtyxDIQ
提取码:g65t

这是一段女装差评文本,我们需要统计词频并写入csv文件:

import nltk
import jieba
from nltk.corpus import stopwords
import re
import pandas as pd
from pandas import DataFrame



#正则表达式,用于去除文本中的特殊符号
pattern = r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|,|。|、|;|‘|’|【|】|·|!| |…|(|)'

#导入停用词
sr=stopwords.words('english')

text=[]
with open('negreview.txt') as f: #读取txt文件
    for line in f:
        words=line.strip().split()  #将每行文字去空白,分割文本,words是list类型
        
        for word in words:

            if word not in sr: #判断word是否是停用词,如果不是,则保留
                text.append(word) #得出的text是不包含停用词的词列表

text=re.split(pattern,str(' '.join(text))) #str(' '.join(text)将text列表转换成字符串,利用re.split不包含分隔符的特点,去除文本中的特殊字符,此处text仍list类型
text=str(' '.join(text))  将text转换成字符串类型

text=jie

你可能感兴趣的:(python,入门,数据分析)