小朋友们好,大朋友们好!
我是猫妹,一名爱上Python编程的小学生。
关注我,一起趣味学编程!
你知道世界上最大的搜索网站是什么吗?
是谷歌!
你知道世界上最大的中文搜索网站是什么吗?
是百度!
在这个信息爆炸的年代,如何从海量的信息中搜寻自己需要的信息非常重要。
咱们今天学习下,如何用Python抓取许老板海量图片,图片来自百度图片。
获取图片地址
第一步,在电脑浏览器上,打开百度图片的网站。
第二步,按F12打开开发者模式,选择Network和Fetch/XHR。
第三步,输入要搜索的关键字,比如许老板。
第四步,鼠标向下滑动,直到Name框中出现多个网址链接信息。
第五步,在Header中的General中,我们可以看到RequestURL,这就是动态地址。
我们分析该地址发现,地址由两部分组成:
我们多分析几个动态地址,会发现规律:
动态参数pn变化规律为30,60,90,120......
它表示该动态网页中图片的个数,即每个动态页面有30张图片。
pn表示从第几张图片开始加载。
知道了网页源码所需接口地址和动态参数后,还需要找到图片的地址。
这个可以在Preview视图中查看,这里面的数据是一个字典结构。
可以通过字典的key(data)获取其value,它是一个包含30元素的列表。
图片地址就在这个列表中,提取出来就可以了。
下载保存图片
有了图片的地址,我们就可以将其保存起来了。
14行,使用响应对象的json()函数将响应对象的内容解析为JSON格式数据
20~27行,将从网上访问得到的图片保存到本地磁盘。其中23行为获取图片信息,24行为图片名称,26行将图片保存到本地。
程序运行结果:
如果遇到什么问题,咱们多多交流,共同解决。
猫妹在同名公众号等你,不见不散!
我是猫妹,咱们下次见!