【最新2020.3】小红书数据采集 APP 爬虫 入门

这里写自定义目录标题

  • 【最新2020.3】小红书数据采集 APP 爬虫 入门 (1)
    • 关于抓包工具
    • Xposted框架+Justtrustme
    • 愉快抓包

【最新2020.3】小红书数据采集 APP 爬虫 入门 (1)

百度直接搜小红书爬虫,出来的文章都是一两年前的了,甚至还有web版本的(小红书web只能显示20条)。花了5天时间研究app爬虫内容,整合到此,以小红书为案例与大家分享中间经过的坑。【最新可操作方式】

关于抓包工具

常用的抓包工具有好多种,可百度搜索抓包工具自行挑选:
主要介绍Flidder,适用安卓和Web抓包。怎么下载和前期调试请参考:
fiddler下载及配参
注意:按步骤一步一步走哈。配置好后fiddler最好重启一次
坑1:选择Decrypt HTPS traffic后,电脑有可能无法连接网络。取消这个勾就可以,手机抓包不影响,且抓包一定要开,否则HTTPS抓不到]【最新2020.3】小红书数据采集 APP 爬虫 入门_第1张图片
坑2:手机证书无法下载
手动下载手机证书

Xposted框架+Justtrustme

Fiddler安装好了以后,正常的手机网页和小型APP(活动行)是可以直接抓包的,但会有乱码或不完整。但是小红书,抖音,淘宝,微信这些是无法抓取的。原因是fiddler的证书是不受这些APP信任的。我们需要绕过这些ssl证书绑定。

解决方案:Xposted框架+Justtrustme
Xposted有多厉害自己可以百度查一下,基本上在安卓系统就是上帝纯在了。唯一一点不好就是需要手机root权限开放。
给个建议:不是专业刷机的同学有三种解决方案,
1、某宝服务专业root+Xp框架安装。半张毛爷爷就能解决(建议系统刷7.0以下)
2、模拟器+Xposted框架
3、virtualXpost+Xposted.apk
我是哪一种,你猜一下。再次强调不是专业刷机!千万别自己来!里面坑太大。。。会砖的。

Xposted框架成功后,点击直接下载Justtrustme
安装JustTrustMe

安装完成后打开模块选项(图片来源见水印~)
【最新2020.3】小红书数据采集 APP 爬虫 入门_第2张图片
坑1:道理上可以抓小红书了,但有可能出现下载完成后小红书无法连接网络的问题。前提是WIFI没问题
解决方法:
1.系统等级太高,删除框架后是否可以联网,不行就重刷系统(我的系统8.0躺坑)
2.Xposted框架与系统不匹配,重刷Xposted框架
3.莫名的原因。比如我小红书可以,抖音不行。自行解决吧

愉快抓包

走到这一步,收获第一阶段的胜利。打开Fiddler,如下图:
【最新2020.3】小红书数据采集 APP 爬虫 入门_第3张图片
【最新2020.3】小红书数据采集 APP 爬虫 入门_第4张图片
#接下来更新PYTHON爬取篇

你可能感兴趣的:(【最新2020.3】小红书数据采集 APP 爬虫 入门)