python爬取“百度小姐姐”

欢迎加入我们卧虎藏龙的python讨论qq群:996113038

最近经常推一些游戏类的推文

发现这些推文的阅读量不是很高

我算明白了

写推文不趁妹子是没人看的

想到自己好久没有发过爬虫了。

今天就给大家推出一个

爬取“百度小姐姐”的文章

希望大家喜欢。

1:关注“python趣味爱好者”公众号,回复“百度爬虫 ”获取源代码

2:加入群聊:996113038。在群文件中下载源代码以及相关资料。

ss

python进阶版《植物大战僵尸》

当年入门时写的的《大富翁》

python3.6.4

第三方库:os,re,json,socket,urllib

以前我写过一些很简单的爬取小姐姐图片的爬虫,那些网站知名度不太高。但是里面的妹子是真的好看。大家可以回顾一下。

10行代码爬取“小姐姐”图片

写那些爬虫的时候,我主要用的是requests库来获取网页信息。然后用正则表达式来提取网页源代码里面的信息。或者用parsel来提取。

这一次,我们要爬取的是百度图片,大家在百度上输入一个检索关键词,比如“小姐姐”。那么就会弹出来很多漂亮小姐姐的照片,这时候,别光顾着看妹子。应该仔细观察一下搜索链接的特点。

python爬取“百度小姐姐”_第1张图片

由于在截图里面链接无法完全显示出来,我把链接放在下面大家看看。

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=小姐姐&oq=小姐姐&rsp=-1

我们发现,我们要检索的关键词“小姐姐”居然在这个链接里面。这样就很明确了。

我们调用爬虫主函数的时候,用到的是下面的方式

我们可以自己修改这个“关键词”。当这个关键词是“美女”的时候。我们爬取的链接里面的相应位置就是“美女”。这个网页获取的图片也就是通过“美女”这个关键词检索出来的。

大家再来看一看代码,相比于我原来写的那个爬虫。

代码虽然多,但是原理基本相同。

主要区别在于获取网页源代码的方式,以前的获取网页源代码用的是requests.get()。现在用的是

python爬取“百度小姐姐”_第2张图片

其实我建议大家还是用requests.get。

再者,我们有一个保存图片到本地的函数

当前路径没有相应名称的文件夹时,可以自动创建一个相应文件夹。在获取图片以后,我们调用这个函数将图片保存到本地。

作者|齐

编辑|齐

感谢大家观看

有钱的老板可打赏一下小编哦

参考来源:https://github.com/kong36088/BaiduImageSpider

你可能感兴趣的:(python爬取“百度小姐姐”)