任务:抓取这5页的数字,计算加和并提交结果
网址:https://match.yuanrenxue.cn/match/19
浏览器调试抓包,看起来没有什么加密,但是使用python 代码抓不到数据
检测ja3方法:
只不过原推荐的文章,查看ja3的网址 不可用了 ,可以使用下面这个
查看ja3 指纹的地址:https://tls.browserleaks.com/json
我经过了跟换ip的测试,ja3指纹是不变的。对比一下浏览器的指纹
推荐写的比较详细的文章
某大神提供四种解决方法
摘抄绕过ja3的四种方法
1.访问ip指定host绕过waf
2.代理中转请求
3.更换request工具库
4.魔改requests
补充一下个人最新的测试
方法2 window+fiddler代理 可以绕过ja3检测 原因是其并没有检测 fiddler的ja3
方法3 亲测使用 pyhttpx (非httpx) 这个工具包是可以获取到数据的,经查看 pyhttpx 并没有看到通过urllib的对象发起请求
方法四 魔改 requests 使用两位大佬的原方法 测试,并没有获取到数据
还有一个是 推荐使用 curl_cffi 可自行尝试,我止步于安装报错 curl_cffi 使用
最终我选择了 pyhttpx 过关