利用爬虫大量抓取网页图片

#第一次学习爬虫后,自己编码抓取图片

##下面介绍一下主要过程

  1. 先打开某一你想要抓取图片的网页,我这里以‘https://www.quanjing.com/creative/topic/29’ 为例|
url = 'https://www.quanjing.com/creative/topic/29'

2.然后读取网页的源代码,我们在源代码里面可以找到我们要爬取的图片所对应的链接|
这里可能会有人文,网页源代码在哪?
答:右键就可以找到网页源代码啦,或者直接F12

html = urllib.request.urlopen(url).read().decode('utf-8')

运行以后,我们可以看到成功抓取了链接,并且都是以列表的形式抓下来的:
链接以列表形式抓取下来
3.下面要用到urllib.request.urlretrieve(url,‘目标地址’)
我们要从相应的链接下载图片,必须先把上面得到的字符串形式转换成不带“”的链接

html1 = i.replace('"','')``



4.批量下载到本地

```python
    for i in page_list:
        html1 = i.replace('"','')
        print(html1)
        global x
        urllib.request.urlretrieve(html1, 'image\%s.jpg' % x)
        x+=1

这里保存到py文件对应的目录image文件下
利用爬虫大量抓取网页图片_第1张图片
5.下面分享我的完整代码

import urllib.request
import re
import xlwt#创建excel表格库
from urllib.request import urlretrieve

x= 0
def getdate():
    url = 'https://www.quanjing.com/creative/topic/29'
    html = urllib.request.urlopen(url).read().decode('utf-8')
    page_list = re.findall(',html)
    print(page_list)

    for i in page_list:
        html1 = i.replace('"','')
        print(html1)
        global x
        urllib.request.urlretrieve(html1, 'image\%s.jpg' % x)
        x+=1


getdate()

你可能感兴趣的:(利用爬虫大量抓取网页图片)