京东评论用jieba分词并用词云可视化

上一篇文章里面,我们把爬取的评论写入了txt里,这里,我们要用jieba分词,并用词云展示,话不多说,show codes.

#-*-coding=utf-8 -*-
from jieba import posseg as psg
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter

f3 = open('commont_philips.txt','r').read()
#print([(x.word,x.flag) for x in psg.cut(f3)]) 打印看看,找出我们不需要统计的词性。
nowords = ['x','uj','a','ul', 'p','d', 'v','zg','m','ug','i', 'f', 'ad','nz', 'r', 'r', 'ns','q','t','c']
words =[x.word for x in psg.cut(f3) if len(x.word)>=2 and (x.flag) not in nowords]
#顺便去掉长度小于2的单字,标点符号。
word_count = Counter(words)
print(word_count)

cy = WordCloud( background_color='white',    # 设置背景颜色
            #mask = pic,        # 设置背景图片
            max_words = 2000,            # 设置最大现实的字数
            #stopwords =STOPWORDS.add('有点'),        # 设置停用词
            font_path = 'SIMYOU.ttf',# 设置字体格式,如不设置显示不了中文
            max_font_size = 80,            # 设置字体最大值
            random_state = 200, # 设置有多少种随机生成状态,即有多少种配色方案
            relative_scaling = 1,
                scale= 10).generate_from_frequencies(word_count)
plt.imshow(cy)
plt.axis("off")
plt.show()

生成的照片如下:

京东评论用jieba分词并用词云可视化_第1张图片

当然,你也可以选一张照片做词云的背景,需要导入一张背景图片。导入一个scipy.misc的包,使用imread插件来读取背景图片。from scipy.misc import imread

下一篇文章,我们使用柱状图,圆饼图,水平图,散点图等来展示看看不同的视觉效果。

你可能感兴趣的:(京东评论用jieba分词并用词云可视化)