第一次写爬虫程序爬取豆瓣5W条电影数据

第一次写爬虫程序爬取豆瓣5W条电影数据

最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾。于是趁着最近不是很忙的机会,重新写了个爬虫,目标是豆瓣里所有的电影数据!
完整源码请参考lixiaodongisme的github

网页分析

首先观察一下豆瓣的网页,看看该如何入手。为了获取到所有的电影数据,我找到了这个页面https://movie.douban.com/tag/#/。页面大概如下所示。

因为我们的目的是获取所有影视相关的数据,所以影视的类型、年代等标签,我们都选择全部即可。通过点击加载更多,就可以获得更多的数据。接下来我们通过浏览器抓包,看能不能找到一些规律,可以让我们的程序去自动采集信息。抓包后我们发现点击加载更多,实际是发送了一个异步的GET请求,默认带四个参数,如图所示。
第一次写爬虫程序爬取豆瓣5W条电影数据_第1张图片

你可能感兴趣的:(数据分析)