2022小红书app爬虫思路

背景

使用传统的rpa去操作app,然后抓包获取数据的效率很烂。我们希望通过直接调用app函数的方式实现小红书app爬虫

思路

  1. 首先我们通过Android Studio创建一个模拟器,安装好Frida Server并运行,然后将最新的小红书app安装到模拟器中。
  2. 运行小红书app,运行objection[https://github.com/sensepost/...]
  3. 在objection中hook URL对象
  4. 观察URL的调用栈
  5. 使用JADX打开小红书APK,分析调用栈中的可疑函数
  6. 编写frida脚本进行实验
  7. 封装python调用frida rpc实现接口的实时调用

效果

2022小红书app爬虫思路_第1张图片

总结

此方法避免了ssl绑定之类的问题,也解决了头部小红书shield计算等问题,因为我们调用的函数在shield的前面,它会被自动添加到header中。

你可能感兴趣的:(2022小红书app爬虫思路)