从头学习爬虫(三十)实战篇----动漫之家漫画(分析)

本文主要分析爬取流程。

点击打开漫画

我下的漫画是食灵

一 列表页

从头学习爬虫(三十)实战篇----动漫之家漫画(分析)_第1张图片

请求和浏览器所获得的页面大致一样,所以照着写xpath,拿到列表页链接

.xpath("//div[@class='cartoon_online_border']/ul/li/a/@href").all();

二 详情页

从头学习爬虫(三十)实战篇----动漫之家漫画(分析)_第2张图片

首先发现每次要点下一张,才能有这一话所有的漫画,我们先点击从上到下,让他全部加载。

然后可以发现Cookie里面display_mode=1,原本是0。

找center_box img 这个图片地址,发现页面和请求不一样(js渲染)

我们这次采用渲染模式,去模拟浏览器。

那么直接跟浏览器一样xpath即可

//div[@class='btmBtnBox']/select/option 找到这个节点所有图片和信息。

下期我们用Java实战下

三 结果

从头学习爬虫(三十)实战篇----动漫之家漫画(分析)_第3张图片

从头学习爬虫(三十)实战篇----动漫之家漫画(分析)_第4张图片

欢迎加群313557283(刚创建),小白互相学习~


你可能感兴趣的:(网络爬虫)