python 爬虫抓取动态页面

前面写的爬虫都是针对手动翻页的

现实中往往有很对网页通过滚轮自动加载出更多的数据

如何获取这种网页的全部数据呢?

例如:豆瓣电影分类排行榜 - 喜剧片

python 爬虫抓取动态页面_第1张图片
首先,动态加载网页的效果一般都是通过Javascript来实现的。

HTTP请求的资源中有一个分类是XHR,它通常用来加载Javascript需要的数据。

打开开发者工具,点击“网络”——“XHR”

向下滚动网页,会发现资源列表会逐步增加一项内容。网页的数据就是通过浏览器运行这些Javascript代码后加载出来的。

网页中的XHR请求,通常会返回一个JSON数组,而JSON数组与python的字典可以通过json库来进行转换。

因此,我们不用lxml.html库,直接通过分析出来的URL来获取数据:

先简单抓取单个网页的数据

复制上图选中条目的URL:
https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=40&limit=20
(点击进去会发现是如下数据:)<

你可能感兴趣的:(爬虫,visual,studio,python)