1. 明确任务
最近学习过程中看到很多分析报告中都有运用到可视化的词云,也有看到五花八门的工具教程,刚好有一份《都挺好》电视剧的弹幕源数据。便决定用这份数据尝试使用python绘制词云。
任务内容
1. 在python中读取excel文件(《都挺好》弹幕源数据.xlsx)提取出弹幕内容
2. 对弹幕内容文本进行结巴分词,设置并过滤掉停用词
3. 使用wordcloud 将分词得到的词汇统计绘制词云图
涉及难点
1. 读写excel文件
2. jieba 中文分词
3. wordcloud 词云展示库
2. 具体操作
2.1 安装相应的第三方库
本次练习需要使用到的库包括读取excel文件的openpyxl(xlwt、xlrd、pandas),进行分词的jieba,以及进行词云图绘制的numpy、matplotlib、wordcloud。
因为不确定在此前安装过哪些库,因此先使用pip list查看已经安装好的库文件。查询之后发现只有wordcloud和openpyxl没有安装,分别使用pip install openpyxl和pip install wordcloud 即可安装。
2.2 读写文件
读写文件在之前了解过 with open 的方法,用于读写txt,csv文件。但是若要读写excel文件则需要使用特定的库。例如 openpyxl、xlwt/wlrd 以及pandas这几种第三方库来读写。本次使用的是openpyxl来进行的文件读写。
相关部分代码:
import openpyxl #此处使用的是openpyxl读取文件,此外还有 xlrd,pandas 读取文件的方式(有待补充)
filename=r'F:\数据分析练手\都挺好-弹幕源数据.xlsx' #打开excel文件
workbook=openpyxl.load_workbook(filename) #读取excel文件
sheet = workbook.active
rows = sheet.max_row #当前表格最大的行数
columns = sheet.max_column #当前表格最大的列数
selectrow = sheet['1'] #读取表格第一行的内容
selectcol = sheet['E'] #读取表格指定'E'列(即弹幕内容列)的内容
2.3 使用结巴分词模块对内容分词
结巴分词支持三种分词模式:全模式,精确模式和搜索引擎模式,普遍使用的是精准模式,此次亦是使用的精准模式。其分词结果是一个可迭代的 generator,可使用for循环得到分词后的每一个词汇。这里定义一个函数来进行结巴分词。
相关部分代码:
import jieba #引入jieba
stopwords={}.fromkeys(['的','得','地','吗','哈哈哈哈','啦','呢','吧','了','啊','这','是','我',':','?','!',' ','。','','\xa0', '']) #定义停用词字典
selectcol=sheet['E']
def jieba_fc(column): #定义一个分词函数进行结巴分词
words=[] #创建一个空列表存放分词结果
for col in column:
word = str(col.value) #因为弹幕中有数字,为避免识别问题,将所有的内容格式都转换为字符串
words_fc = jieba.cut (word,cut_all=False) #使用jieba精准模式进行分词
for j in words_fc: #对分词结果进行停用词筛选
if j not in stopwords: #如果不在停用词字典中
words.append(j) #将它存放到words列表中
return ' '.join(words) #将结果返回成一个以空格为间隔的字符串
text=jieba_fc(selectcol) #调用此函数,并将结果字符串存入text中
2.4 用wordcloud绘制词云
相关部分代码:
from wordcloud import WordCloud #词云展示模块
from wordcloud import ImageColorGenerator #
import PIL.Image as image #图像处理模块
import matplotlib.pyplot as plt #图像展示模块
import matplotlib.font_manager as fm #中文处理模块
import numpy as np
mask=np.array(image.open('148.jpg')) #图片背景参考形状
wc=WordCloud(
background_color="white", #背景颜色
max_words=150, #最多显示的词数
mask=mask, #设置图片的背景
max_font_size=60, #最大的字符
random_state=42, #
font_path='C:/Windows/Fonts/simkai.ttf' #中文处理,用系统自带的字体
).generate(text) #generate 只能处理str文本不能处理list文本
#对词云图各项参数进行调整,使词云图更美观
my_font=fm.FontProperties(fname='C:/Windows/Fonts/simkai.ttf') #词云字体设置
image_colors=ImageColorGenerator(mask) #基于彩色图像的颜色生成器 提取背景图片颜色
wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图的颜色
plt.axis("off") #为云图去掉坐标轴
plt.show() #画云图,显示
plt.imshow(wc,interpolation="bilinear") #开始画图
wc.to_file("dth.png") #输出一个png文件保存云图
2.5效果图
参数调整之前的词云图
初始词云图
背景图片
背景图
设置了背景图,字体颜色等参数的词云图
都挺好弹幕词云图
3. 遇到的问题
在进行结巴分词的时候,运行代码导致格式错误
“AttributeError: 'int' object has no attribute 'decode'”
经过检查发现是因为弹幕中有包含'666'等数字的内容,在结巴分词之后被计算机定义为'int'类型,导致在进行后续的计算时无法被识别而报错。
初次尝试wordcloud词云绘制时,在wc=WordCloud(...).generate(str(words)) 代码中,因generate 只能处理str文本不能处理list文本,将words列表直接使用str转换成字符串,导致词云图出现以下情况:
出现问题的词云图.jpg
在使用wordcloud时,其内置分词程序会对传入的字符串进行再次分词,而直接使用str的方式转换的字符串中词与词之间包含了大量的" ' ' ",使得wordcloud再次分词时产生混乱。因此列表转字符串时可以使用 '空格'.join(列表)的方式去转换,减少词汇之间的符号,使wordcloud能够正确分词。
4. 优化改进
读取文件方面
本次使用的是openpyxl库进行文件读取,此外还有xlrd模块和pandas库均可进行excel文件的读取。可以对几种方式进行尝试比较,比较三者之间的优劣差异。
结巴分词方面
结巴分词可以进行自定义词典,本次分词之后可以看出有一些有特定含义的词汇并没有被jieba识别,因此可以进一步添加新词使其达到更高的正确率。此外,结巴分词还可以进行词频,词性分析标注,可以去深入学习使用。
词云绘制方面
本次词云绘制只是简单的使用了wordcloud进行绘制,该模块还有很多其他的参数设置未进行尝试,比如统计词频进行词云绘制,根据词频高低调节字体大小,在wordcloud中设置屏蔽词汇,给现有词云重新上色等等。