在WordCloud模块中,process_text函数主要用于对文本进行预处理,包括分词、去除停用词、去除标点符号等操作。其具体的用法如下:
经过process_text处理后的文本可以用于生成词云。
#我的Python教程
#官方微信公众号:wdPython
需要注意的是,process_text函数并不会对文本进行编码解码、去重等操作,如果需要执行这些操作,需要额外编写代码实现。
此外,process_text函数返回的结果是一个字典,其中包含了分词后的token以及对应出现的次数。如果不需要统计词频,可以只使用分词结果。
以下是一个使用process_text函数的示例代码:
from wordcloud import WordCloud
import jieba
# 创建WordCloud对象
wordcloud = WordCloud()
f=open('李白.txt', encoding='utf-8')
text=f.read()
seg_list = jieba.cut(text, cut_all=False)
seg_str = ' '.join(seg_list)
print(seg_str)
# 对文本数据进行预处理
processed_text = wordcloud.process_text(seg_str)
# 打印预处理后的文本数据
print(processed_text)
经过process_text处理后,文本被分成了多个token,并统计了每个token出现的次数。
{'将进酒': 2, '李白': 1, '唐代': 1, '君不见': 2, '黄河': 1, '之水': 1, '天上': 1, '来': 1, '奔流': 1, '到': 1, '海不复': 1, '回': 1, '高堂': 1, '明镜': 1, '悲': 1, '白发': 1, '朝如': 1, '青丝': 1, '暮成': 1, '雪': 1, '人生': 1, '得意': 1, '须尽欢': 1, '莫使': 1, '金樽空': 1, '对': 2, '月': 1, '天生我材必有用': 1, '千金': 2, '散尽': 1, '还': 1, '复来': 1, '烹羊': 1, '宰牛': 1, '且': 1, '为乐': 1, '会须': 1, '一饮': 1, '三百杯': 1, '岑': 1, '夫子': 1, '丹丘': 1, '生': 1, '杯莫停': 1, '与': 1, '君歌': 1, '一曲': 1, '请君': 1, '为': 1, '我': 1, '倾耳': 1, '听': 1, '钟鼓馔玉': 1, '不足': 1, '贵': 1, '但愿': 1, '长醉': 1, '不愿醒': 1, '古来': 1, '圣贤': 1, '皆': 1, '寂寞': 1, '惟有': 1, '饮者': 1, '留其名': 1, '陈王': 1, '昔时': 1, '宴': 1, '平乐': 1, '斗酒': 1, '十千': 1, '恣欢': 1, '谑': 1, '主人': 1, '何为': 1, '言少': 1, '钱': 1, '径须': 1, '沽': 1, '取': 1, '君酌': 1, '五花马': 1, '裘': 1, '呼儿': 1, '将': 1, '出换': 1, '美酒': 1, '与尔同销': 1, '万古愁': 1}