如何用Python抓取许老板海量图片(79)

小朋友们好,大朋友们好!

我是猫妹,一名爱上Python编程的小学生。

关注我,一起趣味学编程!

如何用Python抓取许老板海量图片(79)_第1张图片

你知道世界上最大的搜索网站是什么吗?

是谷歌!

你知道世界上最大的中文搜索网站是什么吗?

是百度!

在这个信息爆炸的年代,如何从海量的信息中搜寻自己需要的信息非常重要。

如何用Python抓取许老板海量图片(79)_第2张图片

咱们今天学习下,如何用Python抓取许老板海量图片,图片来自百度图片。

获取图片地址

第一步,在电脑浏览器上,打开百度图片的网站。

如何用Python抓取许老板海量图片(79)_第3张图片

第二步,按F12打开开发者模式,选择Network和Fetch/XHR。

如何用Python抓取许老板海量图片(79)_第4张图片

第三步,输入要搜索的关键字,比如许老板。

如何用Python抓取许老板海量图片(79)_第5张图片

第四步,鼠标向下滑动,直到Name框中出现多个网址链接信息。

如何用Python抓取许老板海量图片(79)_第6张图片

第五步,在Header中的General中,我们可以看到RequestURL,这就是动态地址。

我们分析该地址发现,地址由两部分组成:

  • ?前面是请求动态加载内容的接口地址https://image.baidu.com/search/acjson

  • ?后面是各种参数

    这些参数比较多,也可以从Payload中查看

    如何用Python抓取许老板海量图片(79)_第7张图片

我们多分析几个动态地址,会发现规律:

动态参数pn变化规律为30,60,90,120......

它表示该动态网页中图片的个数,即每个动态页面有30张图片。

pn表示从第几张图片开始加载。

知道了网页源码所需接口地址和动态参数后,还需要找到图片的地址。

这个可以在Preview视图中查看,这里面的数据是一个字典结构。

可以通过字典的key(data)获取其value,它是一个包含30元素的列表。

图片地址就在这个列表中,提取出来就可以了。

如何用Python抓取许老板海量图片(79)_第8张图片

如何用Python抓取许老板海量图片(79)_第9张图片

下载保存图片

有了图片的地址,我们就可以将其保存起来了。

如何用Python抓取许老板海量图片(79)_第10张图片

14行,使用响应对象的json()函数将响应对象的内容解析为JSON格式数据

20~27行,将从网上访问得到的图片保存到本地磁盘。其中23行为获取图片信息,24行为图片名称,26行将图片保存到本地。

程序运行结果:

如何用Python抓取许老板海量图片(79)_第11张图片

如果遇到什么问题,咱们多多交流,共同解决。

猫妹在同名公众号等你,不见不散!

我是猫妹,咱们下次见!

你可能感兴趣的:(python,开发语言)