python词云汉化,可以解析中文文本

最近在研究WordCloud,对于Github上的一些例子,无法识别中文的txt文件,因此就此问题进行了资料的查阅,解决方法如下(仅个人方法,可能会有更方便的,可以自己取研究)

  1. 首先先说一下WordCloud Examples的Github地址,大家如果想要生成词云,可以直接去Down下来,然后改一改进行使用。
    WordCloud 下载地址
  2. 对下载下来的例子进行汉化处理,使得可以读取中文数据
    一、首先进行文件读取方式和编码格式进行更改
		text = open(path.join(d, '3.txt'),'rb').read() #rb读取二进制数
		text = text.decode("utf-8")  #按照utf-8编码

二、对字体进行设置
首先可以先去网上下载一些中文字体库,这里给一个地址:

字体下载地址

接下来将其链接到程序中,代码如下:

wc = WordCloud(max_words=1000, mask=mask, stopwords=stopwords, margin=10,
               random_state=1, font_path="simkai.ttf").generate(text)

就是指定font_path这个参数,给其赋值(字体所在路径)

接下来就可以正常生成可以解析中文的词云了,结果如下:
python词云汉化,可以解析中文文本_第1张图片

你可能感兴趣的:(python)