抖音爬虫教程,从0到1,环境配置

前言

该系列内容主要介绍抖音爬虫的相关过程。因为科研需要,所以选择爬取抖音的视频数据,包括点赞等。爬取思路是首先爬取用户,然后根据用户爬取其对应发布的视频数据。这一个博客我将介绍环境配置。


一、抓包软件

1. 抓包软件选择

这里使用的抓包软件是:Fiddle,因为最新版本的Fiddle比较奇怪,所以我还是选择使用老版本的Fiddle(5.0版本)。

2. 抓包软件配置

2.1. 安装

这里没有什么需要注意的

2.2. 配置

  • 这是初始界面,选择不更新
  • 这是能用到的两个主要的工具按钮
  • 开始配置
点击Tools -> Options,就可以看到Options的主面板

在Options的主面板中,点击 Https,设置捕获 HTTPS的包等,详见下图

点击 Actions -> Trust Root Certificate,为电脑安装证书:


  • 配置允许远程电脑连接(这样就可以抓手机的包了)
在Options的主面板中,点击 Connections,设置连接规则等。包括端口号的设定,一定要记得选中 允许远程电脑连接,我们就可以使用这个作为手机的代理,从而抓取手机的包了。

  • 后面的话使用默认的配置就可以了

二、手机设置

1. 抖音版本选择

试了好多版本的抖音,发现6.3.0版本的最好抓包,所以我就使用了6.3.0版本的抖音,大家如果需要的话可以关注公众号获取安装包

  • 安装好抖音之后,记得不要更新,也可以把应用市场的自动更新禁掉。

2. 配置手机网络

2.1. 保证手机和电脑在同一个局域网内

使用同一个路由器下的网络就行,学校内网应该也是可以的,或者没有路由器的话,用另一个手机开热点给它俩连也可以

2.2. 设置手机代理

  • 首先查看电脑的ip
  • 设置手机代理


这个时候手机代理就设置好了,如果以上步骤都没有问题的话,这个时候应该已经可以联网了,可以用手机上一下百度,测试一个,如果不可以联网,检查一下你的手机网络代理设置是不是正确的:(电脑ip正确不,前面设置的Fiddle的Options里面的Connetions里面的端口是不是和手机上设置的一样),如果没问题,建议重启一下手机,我的手机连不上网的时候重启一下就好了,然后连接网络,然后就可以上网了。

  • 安装证书

因为要爬HTTPS 的包,所以需要安装证书,前面已经知道了你的电脑的ip地址,还有fiddle中设置的端口号,在手机浏览器中输入:http://电脑ip:端口号,例如你的电脑的ip是192.168.0.1,设置的端口号是:8888,那么你就要输入:http://192.168.0.1:8888
如果上一步你的代理设置成功了,那么就会出现这个页面:
点击下载证书,然后安装,过程如下:

上面的图就是抖音某用户发布的视频的抓包,我们可以通过分析请求头以及对应的响应获取我们想要的数据了。


——————————————————————————————————————————

TiToData:专业的短视频、直播数据接口服务平台。

更多信息请联系: TiToData

覆盖主流平台:抖音,快手,小红书,TikTok,YouTube

你可能感兴趣的:(大数据,api,网页爬虫)