Python——生成词云(wordcloud库)

需求:对应政府工作报告等政策文件,如何直观理解?

体会直观的价值:生成词云&优化词云

基本思路:

步骤1:读取文件,分词整理

步骤2:设置并输出词云

步骤3:观察结果,优化迭代

这里因为是中文文章,所以需要对中文进行分词,这里就用到了jieba 库,然后因为wordcloud库处理的是,以空格分隔的字符串,所以在生成字符串时就需要用空格分隔开。

这里还可以限制词语显示的数量,只需要在生成wordcloud对象的时候,增加一个参数就可以

w = wordcloud.WordCloud( \
    width = 1000, height = 700,\
    background_color = "white",     font_path = "msyh.ttc"  \
    max_words = 15       )

常规图形的代码:

import jieba
import wordcloud
f = open("新时代中国特色社会主义.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud( \
    width = 1000, height = 700,\
    background_color = "white",     font_path = "msyh.ttc"         )
w.generate(txt)
w.to_file("grwordcloud.png")

Python——生成词云(wordcloud库)_第1张图片

生成不规则形状的词云(可以形成自己的特色):

import jieba
import wordcloud
from scipy.misc import imread
mask = imread("chinamap.jpg")#加载形状
f = open("新时代中国特色社会主义.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud(\
    width = 1000, height = 700,\
    background_color = "white",     font_path = "msyh.ttc", mask = mask
)
w.generate(txt)
w.to_file("grwordcloudm.png")

 

你可能感兴趣的:(Python)