python3 爬虫 爬取网页图片详解

#导入需要使用的模块

import re
from urllib import request,error

#爬取网页源代码

url=”https://www.csdn.net/”
data=request.urlopen(url).read().decode(“Utf-8”)

#通过正则表达式获取.jpg结尾的图片url链接地址

pat=’src=”(.*?.jpg)”’
allbook=re.compile(pat).findall(data)

#遍历这个列表

for i in range(0,len(allbook)):
# try增强爬虫的稳定输出
try:

    # 指定文件保存路径以及保存方式
    path="C:/Users/ASUS/Desktop/markdown/img/csdnimg"+str(i)+".jpg"
    abc="https:"+allbook[i]
    #将jpg地址远程数据下载到本地
    request.urlretrieve(abc,filename=path)
    print("爬取成功")
# 将错误信息临时存给e
except error.URLError as e:
    if hasattr(e,"code"): #判断是否有异常状态编码
        print(e.code)      #输出异常状态编码
    if hasattr(e,"reason"): # 判断是否有异常原因
        print(e.reason)     #输出异常原因

你可能感兴趣的:(python,爬虫)