通用大数据爬虫系统、适用于抖音、快手、火山

通用大数据爬虫系统,适用于抖音、快手、火山

  • 为什么写这个
    • 数据爬虫分类
        • 协议爬虫
        • 模拟人工操作APP的爬虫(通用版)
    • 抖音爬虫要什么数据
    • 爬虫原理

为什么写这个

嗯,因为我最近在关注抖音这个神奇的APP,又关注到了抖音的数据分析,顺便研究了一下怎样做抖音的大数据爬虫,所以分享出来。

数据爬虫分类

协议爬虫

就是模拟真实的网络请求数据,向目标服务器请求数据的爬虫。例如,用python 的Request 模块构建一个数据请求。。。例如python 的 scrapy
这种爬虫的优点是消耗的计算资源少。缺点是,需要破解目标网站或者APP的请求协议,不少APP的请求协议是加密的,像抖音这样的APP,请求协议加密非常多,更新频繁,不易破解。

模拟人工操作APP的爬虫(通用版)

就是利用手机的控制脚本,模拟人工行为去操作手机,将手机屏幕上显示的信息以人工采集出来。这种爬虫的优点是只要普通人能看到的信息就能过抓取下来,而且配合Http代理程序,可以将所有的http响应中存在的而手机屏幕上没有显示的信息也抓取下来。缺点是运行的时候需要消耗较多的计算资源。本文要讲的是第二种爬虫,以爬取抖音APP为例

抖音爬虫要什么数据

大家可以看到抖音的第三方数据分析平台有飞瓜数据、卡思数据、爱豆数据、toobig Data这么几个。
这三个平台主要展示3个维度的数据:
1.当前那些抖主人气最高(粉丝数、点赞、评论、转发),他们的作品经历了哪些起伏?
2.当前哪些视频人气最高(点赞、评论、转发),这些视频经历了怎样的起伏?
3.哪些视频发出来不多久就被限流了、封号了、重置了?

爬虫原理

我们知道,无论iOS、Android、Windows、还是Linux,都有一套自己用来自动化测试的框架。所谓他山之石可以攻玉,这套框架可以代替人类的手指来操控设备,所以可以用来模拟人的行为从而爬取数据。
废话不多少,直接上图。
通用大数据爬虫系统、适用于抖音、快手、火山_第1张图片
如上图,先用安卓的测试框架API做模拟用户操作的驱动脚本,一边浏览抖主信息,一边截图进行OCR识别文字(UI上显示的文字),一边拦截Http请求中的视频数据块,然后把视频数据块和识别到的文字信息上传到服务器进行存储。
原理就是这么简单。
当然,任何一个靠谱的爬虫都必须面对目标平台的防爬策略,抖音也不例外。具体怎么应对,由于作者时间精力所限,以后酌情细化,CSDN不常上,
有兴趣交流的朋友可以在我昵称中找到我的联系方式。

你可能感兴趣的:(数据爬虫)