Python简单爬取图片实例

都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。

效果

就像这样自动爬取下载图片到本地：

image.png

代码：

其实很简单，我们直接看下整体的代码：

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

导入库：

第一行的utf-8是为了支持中文。

这里我们导入了两个库，分别是 urllib 和 re。urllib 是用来进行 url 网络请求的，而 re 是一个正则表达式匹配的库。这里我们要先对网站进行模拟请求，然后找到网站中的图片进行下载。

请求网站：

第一个方法：getHtml。

这就是用来模拟浏览器访问网站的，参数 url 是要访问的网站链接，这里我们在下面的变量 html 处调用了这个方法，其访问的 url 是一个图片网站，关于选择访问网站还有一点等下要说一下。

在这个方法中，我们先用了 urllib 库的 urlopen 方法来打开网站，然后通过 read 方法来获取网站的源代码，其实就跟在网页中“右键-->检查“是一个意思。最后返回了读取到的网站源代码。

上面说了要注意的一点是，由于很多网站会禁止人们随意爬取数据，有反爬虫的技术，所以在选择要爬取的网站的时候，最好先通过这个方法获取网站源代码，然后 print 输出 html 变量看一下获取到的内容是否是正常的网页源代码，而不是403之类的禁止访问，如果被禁止了，那么自然也不可能爬取到数据了。

找到图片：

接下来是一个 getImg 方法。

在这个方法中，我们设置了一个正则表达式，用来在网页源代码中找到图片的资源路径，这个正则表达式要根据不同的网站去具体设置，比如我爬取的这个网站，图片对应的源代码是这样的：

image.png

因此我们设置的正则表达式就是 reg = 'src="(.+?.jpg)" alt=' ，其实就是根据图片资源路径前后的内容来限制的。

这里也要注意一点，有的网站做了动静分离，图片有其单独的完整资源路径，而有的是直接是相对位置，这时候要么对其路径进行处理，但大多时候你并不知道怎么处理才能拼出完整路径，因此还是找有完整资源路径的图片来试验比较好。

紧接着用 re 库的 compile 函数将正则表达式转换成正则表达式对象，然后使用 findall 函数寻找 html 网页源代码中包含的匹配 imgre 的所有内容，返回一个序列。我们可以输出这个序列，可以看到大量图片资源路径组成的一个序列，如果没爬取到，就是个空序列了。

下载图片

最后一步就是下载图片，这里我们用 for 循环，将图片资源路径中的每个图片，使用 urllib 库的 urlretrieve 函数来下载图片，这个函数其实可以接受很多参数，这里我们设置了要下载的图片资源路径和要命名的名字（我们使用一个变量x来对每个图片依次命名为0,1,2...），还可以设置下载路径、用来显示下载进度的回调函数等等。如果不设置下载路径默认会下载到代码文件当前所在的文件夹。

执行

现在，去执行一次代码就可以啦，mac本身是支持python的，不用配置环境，直接将代码放入一个 .py 文件中，使用终端进入其文件位置，敲入 python xxx.py 命令就可以啦。

查看作者首页

Python简单爬取图片实例

效果

代码：

导入库：

请求网站：

找到图片：

下载图片

执行

你可能感兴趣的:(Python简单爬取图片实例)