"""
爬取以下网站的动物图片
url: https://pic.netbian.com/4kdongwu/
"""
import os
import requests
from bs4 import BeautifulSoup
def get_html(url):
"""
获取网页内容
:param url: 网页地址
:return: 返回网页内容
"""
resp = requests.get(url)
# print(resp.status_code) # 等于200的话说明网址没有反爬机制,则我们可以直接获取网页图片
resp.encoding = 'gbk' # 设置编码(网站的编码为GBK,不设置HTML内容中会出现乱码)
html = resp.text # 获取HTML内容
# print(html)
return html
def get_img_form_html(html):
"""
从 html 中获取图片链接,并通过该链接下载图片
:param html:
:return:
"""
# 获取图片链接
soup = BeautifulSoup(html, 'html.parser')
img_srcs = soup.find_all('img')
for img in img_srcs:
src = img['src']
if src.startswith('/uploads'):
# src = https://pic.netbian.com/uploads/allimg/231006/184010-16965888103766.jpg
src = f"https://pic.netbian.com{src}" # 拼接图片路径
# print(src)
filename = os.path.basename(src) # filename = 184010-16965888103766.jpg
# print(filename)
with open(f'图片/{filename}', 'wb') as f: # wb 以二进制的方式写入
resp_img = requests.get(src) # 获取图片
# resp_img.content 表示以二进制流的方式将图片写入文件
# resp_img.text 表示以文本的方式将图片写入文件
f.write(resp_img.content)
# 获取分页1-10的图片
urls = (['https://pic.netbian.com/4kdongwu/'] +
[f"https://pic.netbian.com/4kdongwu/index_{i}.html" for i in range(2, 11)])
for url in urls:
html = get_html(url) # 根据url获取网页内容
get_img_form_html(html) # 从网页内容中解析出图片链接并下载到本地