我用python扒出了室友的初恋史

我的室友王大国,一直号称自己母胎单身,但我和其他室友一致不相信,因为刚上大学的时候明明经常听到他打电话啊,还骚里骚气的

不知道是在家待傻了,还是春天来了,今天,我的室友王大国发了下面一条朋友圈:

于是大家都开始夸他“不要face”

就在此时,我灵机一现,想出一个绝妙的办法——用python找出大国小朋友的前任女友

首先我进入他的qq空间(因为以前微信没流行的时候,广大90后还是很喜欢玩qq的,尤其是小情侣,几乎天天留言腻歪),然后很自然的来到了留言板

发现王大国的留言在3年前就断了,但是还是有几十页的留言,原来他的人缘以前就那么好

下面开始用python绝技开始分析这些留言:

1.用python爬取留言并保存

爬取方式大概可以分为2种:

①用selenium操控浏览器,模拟登录,然后逐页爬取,缺点:速度较慢;

②requests创建1个会话,然后模拟登录,再根据参数特征进行逐页爬取,缺点:模拟登录过程太难;

这么看来哪种方式都不合我心意,那么怎么才能找到即快又简单的方式呢?

我们只需改进一下第二种方式就ok了,即用requests带着登录后的cookie值去爬取,省去了参数分析的步骤,代码如下:

最后的results为评论的列表,再把qq号、昵称、评论时间、评论内容保存在表格中:

2.先分析一下留言数量排名

先找到留言数量排名前十的好友,主要涉及到pandas操控excel表格知识,代码如下:

最后将留言数量排名前十的好友信息以数据框的格式存入new_dataframe中。

3.用pyecharts画出柱状图

Pyecharts之前已经讲过很多次了,代码如下:

柱状图为:

(昵称已改)

一位昵称为“小静”的好友评论次数最多,总共48次,我们可以发现王大国这个厚脸皮自己给自己留了30多次言

接下来对“小静”的留言内容进行分析,画一个词云图,代码如下:

词云图为:

哈哈哈,又是“班里”,又是“好想你”的,这简直是学生时代偷偷摸摸爱情的典型啊,赶紧返回看一看留言时间:

看来在一起的时间还不短呢

然后就开始给王大国“对质”:

又是和大国斗智斗勇的一天,开森!

需要代码的请私聊回复初恋获取

你可能感兴趣的:(我用python扒出了室友的初恋史)