爬虫脚本ttwid参数

ttwid参数破解

  • 抓包
  • ttwid获取
  • 分析逆向

今天研究了搜索引擎的ttwid参数,站点其实不难 就是弄完了有点无语 特别记录一下 这个坑

抓包

在这里插入图片描述

傻瓜式抓包 直接就看到了我们想要的东西 接着分析发现需要带上cookie cookie有很多 其实有用的也就是一个ttwid 接着分析ttwid如何生成的就行了

ttwid获取

打开无痕模式 可以看到上面那个接口请求了两次 第二次的时候带上了ttwid,向上找找到了一个网站为
https://ttwid.bytedance.com/ttwid/union/register/ 这个东东的请求,这个接口的响应体中有一个

‘Set-Cookie’: ‘ttwid=1%7CSBncVujNOjC5QNlDUbDiRkCZcL6XpWHyarbqfQnYHvY%7C1665305551%7Cc7d8a8dbbc285e07be8e6499875a3e40740975461059070a2f15a7cab8f4a24c; Path=/; Domain=bytedance.com; Max-Age=31536000; HttpOnly; Secure; SameSite=None’,

看见这个Set-Cookie再看见这个cookie的名称 熟不熟悉? 我们只要请求这个接口就能获取到ttwid 接着看这个接口 为POST请求 请求需要的formdata如下

{
    "aid": 4916,
    "service": "so.toutiao.com",
    "unionHost": "https://ttwid.bytedance.com",
    "union": True,
    "needFid": False,
}

OK 看了一眼只需要找到这个aid就大功告成了

分析逆向

https://ttwid.bytedance.com/ttwid/union/register/

这个接口为xhr 需要传入aid 因此设置xhr断点直接断住 然后跟堆栈 直接网上找 最后我们会找到如下图这段代码
爬虫脚本ttwid参数_第1张图片
惊不惊喜?意不意外?跟到底发现是写死的 不是自动生成的,当时看见这段代码我直接一句woc没有憋住
最后吐槽一下 写死是什么操作啊 这JS脚本也不是动态请求的啊 这么做不太安全吧老哥 早知道就不去跟那个aid我直接写死不就完事了吗

你可能感兴趣的:(爬虫,爬虫,python)