import urllib.request
import os
import re
import logging.config
url = r’http://www.h3c.com/cn/’ #爬取华三网站主页的图片
imgPath = r’F:\img’
imgHtml = urllib.request.urlopen(url).read().decode(‘utf-8’) #拿到网页的源代码
urls = re.findall(r’src=”(.*jpg|.*png)”\s’, imgHtml) #根据正则表达式提取出来所有的图片下载地址.
if not os.path.isdir(imgPath): #如果没有此目录,创建一个
os.mkdir(imgPath)
index = 1 #用来记载下载了多少个照片
for url in urls:
logging.basicConfig(level=logging.INFO) #为日志设定级别
logging.info(url)
# 未能正确获得网页 就进行异常处理
try:
print(url) #打印下载路径
res = urllib.request.urlopen(‘http://www.h3c.com‘+url) #有的网站上的源代码显示的并不是真实路径.
if str(res.status) != '200':
print('未下载成功:', url)
continue
except Exception as e:
print('未下载成功:', url)
filename = os.path.join(imgPath, str(index) + '.jpg') #创建一个文件
with open(filename, 'wb') as f:
f.write(res.read())
print('下载完成\n')
index += 1
print(“下载结束,一共下载了 %s 张图片” % (index - 1))