python爬虫实战——爬取图片

"""
爬取以下网站的动物图片
url: https://pic.netbian.com/4kdongwu/
"""
import os
import requests
from bs4 import BeautifulSoup


def get_html(url):
    """
    获取网页内容
    :param url: 网页地址
    :return: 返回网页内容
    """
    resp = requests.get(url)
    # print(resp.status_code)  # 等于200的话说明网址没有反爬机制,则我们可以直接获取网页图片
    resp.encoding = 'gbk'  # 设置编码(网站的编码为GBK,不设置HTML内容中会出现乱码)
    html = resp.text  # 获取HTML内容
    # print(html)
    return html


def get_img_form_html(html):
    """
    从 html 中获取图片链接,并通过该链接下载图片
    :param html:
    :return:
    """
    # 获取图片链接
    soup = BeautifulSoup(html, 'html.parser')
    img_srcs = soup.find_all('img')
    for img in img_srcs:
        src = img['src']
        if src.startswith('/uploads'):
            # src = https://pic.netbian.com/uploads/allimg/231006/184010-16965888103766.jpg
            src = f"https://pic.netbian.com{src}"  # 拼接图片路径
            # print(src)
            filename = os.path.basename(src)  # filename = 184010-16965888103766.jpg
            # print(filename)
            with open(f'图片/{filename}', 'wb') as f:  # wb 以二进制的方式写入
                resp_img = requests.get(src)  # 获取图片
                # resp_img.content 表示以二进制流的方式将图片写入文件
                # resp_img.text 表示以文本的方式将图片写入文件
                f.write(resp_img.content)


# 获取分页1-10的图片
urls = (['https://pic.netbian.com/4kdongwu/'] +
        [f"https://pic.netbian.com/4kdongwu/index_{i}.html" for i in range(2, 11)])
for url in urls:
    html = get_html(url)  # 根据url获取网页内容
    get_img_form_html(html)  # 从网页内容中解析出图片链接并下载到本地

你可能感兴趣的:(#,python,爬虫实战,python,爬虫,开发语言)