Python爬虫-基于关键字品牌爬取京东商品完整信息(一)

京东爬取分为京东商品信息爬取及京东商品评论信息爬取,评论信息爬取参考:

京东商品评论爬虫

在写京东爬虫之前,笔者查看了很多博主的文章,发现很多所谓的京东商品爬取,只是把信息获取到,而没有去想是否完整,是否有动态加载的信息没有爬取到的内容?稳定性如何?当出现万条信息时会不会被ban掉,于是产生了自己手造轮子的想法,暂时以request实现,后续更新scrapy版本,如有问题,欢迎讨论批评
vx:476736794

一. 爬取流程

Python爬虫-基于关键字品牌爬取京东商品完整信息(一)_第1张图片

二.爬取商品品牌思路分析

京东爬虫中,评论的爬取有基于json的接口,但商品的爬取并未发现,于是按照初步思路进行基于xpath的爬取。
为了降低程序的耦合性,我们将程序基本分为三个模块:
第一个是geturl模块,即得到请求的url;
第二个是getresponse模块,即根据url及headers请求头,得到请求得到的response数据;
第三个是parse_html模块,即根据返回得到的response信息,进行解析;
然后通过main函数整体进行调用。
以搜索豆浆机为例,显示结果如下图:
Python爬虫-基于关键字品牌爬取京东商品完整信息(一)_第2张图片
因为考虑到京东商品的最大显示页为100页,但可能存在商品的实际页数超过100页的情况,所以我们采取按品牌搜索商品,再遍历商品的方法,用红框标出来的即为品牌的名称。
但是在实际分析时却发现,当前页面上显示的只有到SKG
Python爬虫-基于关键字品牌爬取京东商品完整信息(一)_第3张图片
并未显示完全,当我们点击更多时,发现还有下面的品牌名
在这里插入图片描述
后半部分的数据怎么取得,通过在network中观察发现,后面部分品牌的信息为动态加载,当点击更多时,可以在network中找到响应的数据
Python爬虫-基于关键字品牌爬取京东商品完整信息(一)_第4张图片
于是我们得出了,如果想爬取每个品牌的链接下的商品,需要写两个不同的接口来请求获得响应,下面将详细介绍实现的方法。

三.爬取商品品牌的实现方法

你可能感兴趣的:(Python爬虫)