用Python爬取大火的《海王》豆瓣评论

 最近海王大火,今天就来看看豆瓣上对于海王这个大片的评论吧

Just Do It By Yourself

 

01.分析页面

豆瓣的评论区如下

用Python爬取大火的《海王》豆瓣评论_第1张图片

 

可以看到这里需要进行翻页处理,通过观察发现,评论的URL如下:

https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l

每次翻一页,start都会增长20,由此可以写代码如下

用Python爬取大火的《海王》豆瓣评论_第2张图片

使用range函数,步长设置为20,同时通过title等于“没有访问权限”来作为翻页的终点。

 

02.分别获取评论

豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析

用Python爬取大火的《海王》豆瓣评论_第3张图片

 

其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。

最后把得到的数据保存到文件里

用Python爬取大火的《海王》豆瓣评论_第4张图片

 

03. 做成词云

这里使用jieba来分词,使用wordcloud库制作词云,还是分成三类,同时去掉了一些干扰词,比如“一部”、“一个”、“故事”和一些其他名词,操作都不是很难,直接上代码

用Python爬取大火的《海王》豆瓣评论_第5张图片

 

04. 效果

好评

 

用Python爬取大火的《海王》豆瓣评论_第6张图片

一般

用Python爬取大火的《海王》豆瓣评论_第7张图片

 

差评

用Python爬取大火的《海王》豆瓣评论_第8张图片

 

感觉爬取豆瓣还是比较简单的,毕竟并没有设置什么反爬手段,小伙伴们也可以一起动手试试。

本文为简洁起见省略了一些细节代码,完整源码可见:我的Github

也可以关注我的公众号,或者加入Python入门实战QQ交流群:617870323

用Python爬取大火的《海王》豆瓣评论_第9张图片

 

你可能感兴趣的:(Python,爬虫,数据分析)