爬虫逆向实战(八)--猿人学第十五题

一、数据接口分析

主页地址:猿人学第十五题

1、抓包

通过抓包可以发现数据接口是api/match/15
爬虫逆向实战(八)--猿人学第十五题_第1张图片

2、判断是否有加密参数

  1. 请求参数是否加密?
    查看“载荷”模块可以发现有一个m加密参数
    爬虫逆向实战(八)--猿人学第十五题_第2张图片
  2. 请求头是否加密?
  3. 响应是否加密?
  4. cookie是否加密?

二、加密位置定位

1、看启动器

查看启动器发现调用堆栈中有一个request,点进去查看
爬虫逆向实战(八)--猿人学第十五题_第3张图片
点进去后可以发现,此处是发送ajax请求的位置,参数m是在上方生成的
爬虫逆向实战(八)--猿人学第十五题_第4张图片

三、扣js代码

在扣js代码时,可以发现js代码很少,只有几行。是因为这里导入了一个wasm文件
爬虫逆向实战(八)--猿人学第十五题_第5张图片
所以此处就需要先将这个wasm文件下载到本体,然后使用python中的pywasm模块先将wasm文件加载,然后再使用pywasm模块执行js代码。安装pywasm模块的命令:pip install pywasm
js源代码:

function get_m() {
    t1 = parseInt(Date.parse(new Date()) / 1000 / 2);
    t2 = parseInt(Date.parse(new Date()) / 1000 / 2 - Math.floor(Math.random() * (50) + 1));
    return instance.exports.encode.q(t1, t2).toString() + '|' + t1 + '|' + t2;
}

python源代码:

"""
Email:[email protected]
Date: 2023/8/1 17:17
"""
import time

import pywasm
import requests


headers = {
    "authority": "match.yuanrenxue.cn",
    "referer": "https://match.yuanrenxue.cn/match/15",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36",
    "x-requested-with": "XMLHttpRequest"
}
cookies = {
    "sessionid": "b8bx05hen610m38au39vo4fwk4jk49n9",
}
url = "https://match.yuanrenxue.cn/api/match/15"
vm = pywasm.load("./main.wasm")

num = 0
for page in range(1, 6):

    t1 = int(time.time() / 2)
    t2 = int(time.time() / 2) - 1

    result = vm.exec("encode", [t1, t2])

    m = f'{result}|{t1}|{t2}'

    if page >= 4:
        headers['user-agent'] = 'yuanrenxue.project'

    params = {
        "m": m,
        "page": str(page)
    }
    response = requests.get(url, headers=headers, cookies=cookies, params=params)

    print(response.text)
    print(response)

    data = response.json()['data']
    for item in data:
        num += int(item['value'])

print(num)

你可能感兴趣的:(爬虫逆向实战,爬虫)