看看你的群里都在说什么

嗯,最近学习词云,就研究了一下jieba,collections,wordcloud模块
先看看成品图吧


看看你的群里都在说什么_第1张图片
Python.jpg

数据收集

从QQ群导出聊天记录(如何导出请自行百度):


看看你的群里都在说什么_第2张图片
预处理信息.png

数据处理

我们并不需要一些干扰信息(如时间,昵称,QQ号等)


看看你的群里都在说什么_第3张图片
信息预处理.png

通过正则处理掉无用的信息

list1=[]
with open("./词云练习/Python.txt","r") as f:
    for i in f.readlines():
        j=re.findall("\d{4}-\d{2}-\d{2}",i)
        # print(j)
        if not j:
            print(i)
            list1.append(i)

处理完成的文本信息


看看你的群里都在说什么_第4张图片
image.png

然后可以开始我们的数据词云化了
词云化所需要的库

from scipy.misc import imread
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import jieba
import re

关于各个库的介绍,起什么作用,不在此赘述了,希望了解的朋友还请自行百度,毕竟这也是学习的过程(其实是懒得打字(^-^)V)

开始分词吧

看看你的群里都在说什么_第5张图片
image.png

这里的exclude_words 是属于停止词,就是分词以后,我们进行数据分析时,
所不需要的词汇,所以要用迭代器for....in.... 把分好的词中,含有停止词的词汇排除

开始画图吧

你需要一个简体中文字体库,因为你做的是中文分词,
字体库可以电脑里面找,也可以网上下载个性字体,
把他放在你当前的项目目录就好了
(就是放在你这会儿编辑的py文件的右边,左边也行!(゚▽゚)/)

看看你的群里都在说什么_第6张图片
image.png

这里解释一下参照图
看看你的群里都在说什么_第7张图片
man.png

有了参照图以后 你生成的词云也是这个人的样子
否则就是方方正正的图片,如下:
看看你的群里都在说什么_第8张图片
123.jpg

嗯, 这一期词云可视化就到这里了,蛮简单的 ,吃透一次 ,就可以完全理解了
看看你的群里都在说什么_第9张图片
Python.jpg

大家如若有兴趣,欢迎朋友,可以加交流群:692-858-412一起学习
喜欢我的文章可以关注我哦,别忘了点个喜欢!

你可能感兴趣的:(看看你的群里都在说什么)