1.在anaconda官网下载并安装anaconda2(python2.7),jupyter notebook为anaconda自带。能够打开Anaconda Navigator说明anaconda安装成功。
2.在安装的anaconda列表,双击打开jupyter notebook,显示页面:
3.可以点击Desktop新建一个文本文档保存词云所用到的文本,勾选新建的文本,点击右上角New,选中Python2,
在in[]内编写代码,
4.https://mp.weixin.qq.com/s/ux2MqsjUwalHiIsm1f832w根据连接所教,编写代码。
5.在运行#coding:utf-8__author__ = 'Hanxiaoyang'
import jieba #分词包
import numpy #numpy计算包
import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import pandas #数据分析包
import matplotlib.pyplot as plt
from wordcloud import WordCloud #词云包
在运行时找不到jieba、wordcloud这两个包,解决方法:(1)“开始 → Anaconda3(64-bit)→ 右键点击Anaconda Prompt → 以管理员身份运行”,
conda install --name <env_name> <package_name>
(2)
file=codecs.open(u"大话西游.txt",'r')
content=file.read()
file.close()
segment=[]
segs=jieba.cut(content) #切词,“么么哒”才能出现
for seg in segs:
if len(seg)>1 and seg!='\r\n':
segment.append(seg)
时,出现语法错误,segs=jieba.cut(content)在Python3中是正确的,在Python2中要把括号去掉。
8.words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)
words_stat #打印统计结果
统计个数,但是报错说没有sort属性,解决办法:改成sort_values("计数",ascending=False);
8.最后是显示词云的代码:%matplotlib inline
wordcloud=WordCloud(font_path="simhei.ttf",background_color="black")
wordcloud=wordcloud.fit_words(words_stat.head(1000).itertuples(index=False))
plt.imshow(wordcloud)
plt.show()
但是会报错:
'itertools.imap' object has no attribute 'items'
暂时没有找到解决方法。