Python3爬虫图片抓取

(1)实战背景

Python3爬虫图片抓取_第1张图片 

上图的网站的名字叫做Unsplash,免费高清壁纸分享网是一个坚持每天分享高清的摄影图片的站点,每天更新一张高质量的图片素材,全是生活中的景象作品,清新的生活气息图片可以作为桌面壁纸也可以应用于各种需要的环境。

看到这么优美的图片,是不是很想下载啊。每张图片我都很喜欢,批量下载吧,不多爬,就下载50张好了。

2)实战进阶

我们已经知道了每个html标签都有各自的功能。标签存放一下超链接,图片存放在哪个标签里呢?html规定,图片统统给我放到标签中!既然这样,我们截取就Unsplash网站中的一个标签,分析一下:

<span"Snow-capped mountain slopes under blue sky" src="https://images.unsplash.com/photo-1428509774491-cfac96e12253?dpr=1&

可以看到,标签有很多属性,有alt、src、class、style属性,其中src属性存放的就是我们需要的图片保存地址,我们根据这个地址就可以进行图片的下载。

那么,让我们先捋一捋这个过程:

  • 使用requeusts获取整个网页的HTML信息;
  • 使用Beautiful Soup解析HTML信息,找到所有标签,提取src属性,获取图片存放地址;
  • 根据图片存放地址,下载图片。

我们信心满满地按照这个思路爬取Unsplash试一试,编写代码如下:

# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
     target = 'https://unsplash.com/'
     req = requests.get(url=target)
     print(req.text)

按照我们的设想,我们应该能找到很多标签。但是我们发现,除了一些

你可能感兴趣的:(Python3爬虫图片抓取)