爬取二次元图片

前言

我一个亲戚的小孩很喜欢二次元,也没事就喜欢画这些二次元的动漫人物,为了精进自己的技术,经常要在网上找自己喜欢的图片做参考,但是每次都很麻烦才能找到合适的图片,而且一次也只能保存一张,为了能有很多的图片素材做参考,他就找到了我,让我帮他家小孩搞一点这类的图片,这就有了今天这个案例。

今天这个案例就是爬取二次元的动漫图片,爬图片的案例之前也讲过不少,可是今天这个案例,看似很简单的网站,实则想找到真正的图片位置,确实一个很复杂的过程,话不多说,我们开始吧。

分析网页

Snipaste_2022-05-12_12-15-55.png

如图分析所示,我们要的图片就在这个网址里面,但是这个网址里面只有很少的一部分图片,我们向下滚动网页,才能出现新的图片,这个很明显就是网站运用了Ajax技术,所以我们可以直接定位到xhr这个图标下。

Snipaste_2022-05-12_12-20-00.png

在xhr图标下,经过我们的查找,定位到了,这个请求下,可以看出这里面才有关于图片的信息,但是这里经过我们查找,里面并没有这个图片的大图,这个里面只有图片的缩略图,我们要找的是图片的大图,所以就必须要进入到每个图片的链接里面去查找,虽然没有大图,但是不代表这里面就没有我们需要的信息,


Snipaste_2022-05-12_16-15-24.png

可以看到,每张图片的链接都是有一个图片自己的id组成的,每个链接的不同,其实就是每张图片链接的id在变化,所以我们先请求出这些图片的链接,获取到每张图片的id,然后在构建每一个图片的链接地址,然后在请求这些地址,我们在进到图片地址里面看看


Snipaste_2022-05-12_16-18-56.png

如图,可以看到,进入到图片链接里面并没有我们看到的图片,那么这图片在哪里呢,我们试着在这些请求里面找一下,加载图片的链接,


Snipaste_2022-05-12_16-20-56.png

Snipaste_2022-05-12_16-21-27.png

这才是真正加载图片的链接地址,那么这个链接地址到底在哪里呢,我们试着拿链接地址里面的一段数据搜索一下

Snipaste_2022-05-12_16-23-59.png

可以很明显的看出包含链接地址的信息就是在主页的源码里面,

Snipaste_2022-05-12_16-25-58.png

虽然在主页的源码里面,但是可以看出这里的标签是script,那也就代表这里面是一段js的代码,要想从这里面准确的找到我们能需要的数据,就需要先把它从js代码里面获取出来,然后在进一步的筛选,这里用到一个我之前介绍过的一个模块chompjs,它可以把看似像json的数据,把它转成真正的字典数据,从而方便我们的查找。剩下的就是找到真正图片的位置,然后给它清洗出来。

现在说一下大体思路,我们先通过api接口拿到每张图片的id,然后把这些id构建成图片的链接地址,请求这些链接地址,获取到每个链接地址的源码信息,通过正则把需要的信息从js代码里面匹配出来,然后通过chompjs这个模块把数据转换成字典数据,从字典数据中筛选出我们要的图片真实地址,最后保存。

案例模块

import httpx
import chompjs
import json
import fuckit
import re
import os
from faker import Faker

构建url列表,然后对url发送请求,获取响应数据

def get_url_list():
    """构建url列表

    Returns:
        _type_: _description_
    """
    return [page_url.format(i) for i in range(1, 2)]

def parse_url(url):
    """发送请求,获取响应数据

    Args:
        url (_type_): _description_

    Returns:
        _type_: _description_
    """
    with httpx.Client() as s:
        r = s.get(url, headers=headers)
        return r.content.decode()

提取每张图片的id数据

def get_img_ids(json_str):
    """提取出每张图片的id

    Args:
        json_str (_type_): _description_

    Yields:
        _type_: _description_
    """
    json_datas = json.loads(json_str)
    for json_data in json_datas.get('data').get('top_list_item_info'):
        # 提取图片id
        yield {'img_id': json_data.get('item_detail').get('item_id')}

提取图片的真实地址

def get_pic_url(html_str):
    """获取图片的真实url地址

    Args:
        html_str (_type_): _description_

    Returns:
        _type_: _description_
    """
    pattern = 'window.__ssr_data = JSON.parse\("(.*?)"\);'
    with fuckit:
        json_str = re.search(pattern, html_str, re.S).group(1).replace('\\', '')
        json_data = chompjs.parse_js_object(json_str)
        img_url_temp = json_data.get('detail').get('post_data').get('multi')[0].get('origin')
        pic_url = re.sub('u002F', '/', img_url_temp)
        return pic_url

保存图片

def down_pic(pic_url):
    """保存图片

    Args:
        pic_url (_type_): _description_
    """
    f = Faker(locale='zh_CN')
    pic_name = f.random_number(digits=8)
    path = os.path.join('cos_img', f'{pic_name}.jpg')
    r = httpx.get(pic_url, headers=headers)
    with open(path, 'wb') as f:
        f.write(r.content)
        print(f'{pic_name}爬取成功......!!!')

实现程序的主要逻辑思路

def main():
    """实现程序的主要逻辑思路
    """
    # 1.构建url列表
    url_list = get_url_list()
    for url in url_list:
        # 2.发送请求,获取响应数据
        json_str = parse_url(url)
        # 3.提取图片id
        img_ids = get_img_ids(json_str)
        for img_id in img_ids:
            # 4.构建图片的链接地址
            img_url = img_url_temp.format(img_id.get('img_id'))
            # 5.对图片链接发送请求
            html_str = parse_url(img_url)
            # 6.提取图片真实的地址
            pic_url = get_pic_url(html_str)
            # 7.保存图片
            down_pic(pic_url)

效果展示

Snipaste_2022-05-12_16-46-30.png

案例具体步骤可以看我b站,里面有本案例具体步骤。
b站账号:
https://space.bilibili.com/351138764

你可能感兴趣的:(爬取二次元图片)