斗鱼颜值区小姐姐图片爬虫

看到别人都爬网络上的美图,不免也有些手痒,作为直播爱好者,平时常看斗鱼,这次就决定用斗鱼颜值区的小姐姐来试试。

之前是用源码来解析的,这次发现斗鱼的翻页和爱奇艺的不一样,不能和之前一样处理。怎么办呢

打开f12,尝试着点击第二页,第三页,第四页,意外的发现上面出现2,3,4的文件,点击2,可以清楚的看到我们所需要请求的URL"https://www.douyu.com/gapi/rkc/directory/2_201/2


查看该URL的返回值


我们所需要的数据就都在里面了,得来全不费功夫。

将URL打开后,原以为数据就会被打印出来,咦,报错了!


原来是斗鱼做的反爬虫处理,被发现了!

自然是在度娘的帮助下解决了,加上headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'},轻轻松松解决问题。

返回后的数据为字符串,将它转为json数组,即可轻松遍历得到我们所需的图片地址及主播的名称。

观察到一般斗鱼颜值区主播就四页左右,所以我们先爬取前三页。爬取开始了!

图片在一张一张的增加,突然又报错了!

urllib.error.HTTPError: HTTP Error 403: Forbidden

还是这个和前面一样的错,这是为啥,我在下载图片时没设置延时被发现了!

只能继续设置延时,这里经过测试,在每爬50张设置2秒延时后,还是被发现了!心一狠,干脆做了随机数的延时,每爬一张都设置了延时,这总没问题了吧。


延时设置后,爬取速度慢了不少,但没有被斗鱼发现了,一张一张慢慢爬,小姐姐都收入我的文件夹

附成果一张~有你们常看的小姐姐吗


代码地址:Github

你可能感兴趣的:(斗鱼颜值区小姐姐图片爬虫)