关于抖音APP爬虫的一些个人想法(以NBA为例记录)

关于要爬取的目标数据

以NBA抖音号为起始,首页包括关注数,点赞数和粉丝数(此部分是加密数据,但是fiddler抓包中还有一个是未加密的数据)

加密数据是分享页上的数据,破解方法可以参考这位老哥的 https://sergiojune.com/2019/01/21/%E5%B0%8F%E7%99%BD%E4%B9%9F%E5%8F%AF%E4%BB%A5%E7%9C%8B%E4%BC%9A%E7%9A%84%E7%A0%B4%E8%A7%A3%E6%8A%96%E9%9F%B3%E5%AD%97%E4%BD%93%E5%8F%8D%E7%88%AC/

下拉是视频列表,目标数据是单个视频的url,评论(fiddler可获取)

 

关于工具使用

主要是以fiddler为主,可配合appium或者Airtest自动化控制手机下拉刷视频(主要是为了获取单个视频的url,这个视频是无水印的),可参考  https://www.cnblogs.com/stevenshushu/p/9635097.html

 

重点来了,爬虫的算法实现:

首选appium自动化控制手机,找到NBA首页,fiddler抓包开始,(2,3可同时进行,将所有url都保存下来,可以多线程采集)

1:抓api-eagle.amemv.com开头的主页信息url,保存至本地或数据库,可获取未加密的关注数,点赞数和粉丝数,

2:点开NBA主页的第一个视频,点击评论(获取评论(api开头)),开始抓包,然后一直模拟上滑,抓取不同视频的url(fiddlerscript 自动保存符合条件的url(v1-dy.ixigua.com||v3-dy.ixigua.com|v6-dy.ixigua.com|v9-dy.ixigua.com|)),保存至本地或者数据库,然后请求url进行视频下载。(视频的评论,转发还没实现)

3:点击粉丝数,进入粉丝列表页,点击第一个人的头像,进入该主页开始抓包(原理同上),以此类推,可以采集到抖音大多数用户的信息和视频了

问题:关于去重问题。功力不足,目前还没有好的办法

 

 

你可能感兴趣的:(app爬虫)