用QQ聊天记录生成一个词云

问题与思路

在了解了 Python 可以制作词云图后便想利用它来做点什么,于是便决定将自己和女朋友的聊天记录导出来做一个词云图看看。QQ的聊天记录可以通过消息管理器导出为 .txt 格式,具体的操作不再赘述。本文的分词工具采用的是 jieba 分词。

系统环境说明

本文的实验环境是 Python 3.6.1 |Anaconda 4.4.0 (64-bit),Win10

依赖包

jieba 、wordcloud 、PIL

安装方式

pip install jieba

其它的包也是同样的安装方式,不再赘述。

代码

import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, random_color_func
import os
import numpy as np
import PIL.Image as Image
import re

with open('聊天记录.txt', encoding="utf8") as fp:
    text = fp.read()

text_cleansing = re.sub("((\d){4}-(\d){2}-(\d){2} \d\d:\d\d:\d\d)|\n|[表情]|[图片]|\[|\]", "", text).replace('mmmm*~~', '胡颖').replace('??', '胡颖')
jieba.add_word('高正杰')  # 将名字加入词典
jieba.add_word('胡颖')  # 同上
wordlist_jieba = jieba.cut(text_cleansing, cut_all=True)  # 分词
wl_space_split = " ".join(wordlist_jieba)
alice_coloring = np.array(Image.open("wechat2.jpg"))
my_wordcloud = WordCloud(background_color="white", max_words=5000, mask=alice_coloring, max_font_size=60,
                         font_path='C:\Windows\Fonts\msyhl.ttc').generate(wl_space_split)
image_colors = ImageColorGenerator(alice_coloring)
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
# plt.imshow(my_wordcloud.recolor(color_func=random_color_func))
plt.imshow(my_wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

效果图

用QQ聊天记录生成一个词云_第1张图片

用QQ聊天记录生成一个词云_第2张图片

用QQ聊天记录生成一个词云_第3张图片

用QQ聊天记录生成一个词云_第4张图片

总结

虽然做出了效果,但是总感觉没有别人做的云图好看,关于背景图的选择,前景的字体颜色如何设置,均还有较大的空间值得学习。另外通过云图可以明显看出我平常和女朋友的聊天过程中说 哈哈 的次数真多,不得不说这真是一件幸福的事情!

参考文献

[1] http://www.yeayee.com/article-6655592-1.html 这篇文章对 WordCloud 的每个参数讲解比较细致,推荐仔细阅读。
[2] https://www.jianshu.com/p/e4b24a734ccc 王树义老师的文章,一如既往地详细。

你可能感兴趣的:(自然语言处理,python,词云)