Python开启观影新方式!通过词云,可以让电影的好看程度一目了然

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第1张图片

 

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

生活三部曲:歌曲、小说、电影,为了找到我们心仪的电影,影评是我们寻找合自己心意电影的好方法,而通过词云,可以让电影的类型和好看程度一目了然,不管你是想看文艺的还是商业的,理想的还是现实的,又或者是好看或是不好看,不管什么类型,是否好看,结果都会显而易见的呈现在你的眼前,不来试一试嘛

先来看一下成果图:

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第2张图片

 

下来我们就详细讲解一下如何高效快速完成爬取任务,文末附完整代码。

1、查找电影链接

在豆瓣网找到你想爬取的电影的链接(以《立春》为例):

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第3张图片

 

2、寻找网页源码规律

通过检查源码发现其隐藏规律!

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第4张图片

 

3、正则表达式提取影评

按检查网页可发现,所有的文字都放在了一个content的div标签中;这样就很方便我们来提取!

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第5张图片

 

4、保存本地

既然都爬取的,如果不保存本地的话那将毫无意义。首先我们可以创建一个文件夹:

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第6张图片

 

然后利用for循环遍历将我们刚刚提取的文字,保存至这个csv文件就OK了!

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第7张图片

 

5、生成词云

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第8张图片

 

6、总结

选取网页+爬取网页+提取信息+保存信息+绘制词云

部分代码

Python开启观影新方式!通过词云,可以让电影的好看程度一目了然_第9张图片

 

 

 

你可能感兴趣的:(爬虫)