抖音数据采集教程，高级版

上一篇文章讲了如何对采集的数据进行抓包和解析，本次主要讲解如何使用自动化工具，实现自动化数据采集。如果想了解抓包和解析部分的内容，可以查阅我的上一篇文章《数据平台初试（技术篇）——抖音数据采集（初级版）》，文末附有上篇文章的传送门。本次用到的工具：移动端自动化工具Appium，夜神模拟器（也可以用真机代替），adb工具。

运行环境准备工作

开始进入数据采集的准备工作，在上一篇文章的基础上，搭建自动化环境，首先需要配置android-sdk，安装教程可参考如下链接，最后需要验证adb命令是否可用，在命令行窗口运行adb version，出现版本号信息，说明adb工具可用，android sdk下载及安装教程请参阅如下链接：

https://www.cnblogs.com/woniu123/p/10755262.html

配置好android-sdk后，就可以安装Appium了，下载地址如下，此处我们选择appium-desktop-setup-1.9.0.exe版本：

https://github.com/appium/appium-desktop/releases/download/v1.9.0/appium-desktop-setup-1.9.0.exe

下载好后基本是下一步安装，安装完成后启动应用，出现如下窗口证明安装成功：

{
    "platformName": "Android",
    "platformVersion": "5.1.1",
    "deviceName": "127.0.0.1:62001",
    "appPackage": "com.ss.android.ugc.aweme",
    "appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
    "noReset": true
}

platformName：模拟器运行的平台，填入Android
platformVersion：查看模拟器的安卓版本，填入即可
deviceName：此处为运行adb devices命令得到的设备，当前模拟器为127.0.0.1:62001
appPackage和appActivity：抖音app的包名和启动方法名，可通过android-sdk\build-tools\29.0.2下面的aapt.exe工具获得
配置好后，点击Star Session，看到模拟器启动抖音app则证明环境配置无误。

业务场景说明

有了运行环境，接下来介绍下本次的需求，打开模拟器中安装的抖音app，首先下滑刷新视频，再进入用户主页，分别对主页数据，关注数据，粉丝数据，作品和喜欢页签进行采集。appium需要做的对应操作如下：
1.下滑刷新视频
2.左滑进入用户主页
3.点击关注按钮
4.开始下滑关注列表，直到出现“暂时没有更多了”
5.返回用户主页
6.点击粉丝按钮
7.开始下滑粉丝列表，直到出现“暂时没有更多了”
8.返回用户主页
9.点击作品页签
10.下滑作品视频列表，直到出现“暂时没有更多了”
11.点击喜欢页签
12.下滑喜欢视频列表，直到出现“暂时没有更多了”
13.返回视频页面，重复步骤1

代码准备

安装python的Appium客户端：

pip install Appium-Python-Client

准备撸代码。
1.启动app

device_name = '127.0.0.1:62001'
device_port = '4723'
desired_caps = {
    "platformName": "Android",
    "platformVersion": "5.1.1",
    "deviceName": device_name,
    "appPackage": "com.ss.android.ugc.aweme",
    "appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
    "noReset": True,
    "unicodeKeyboard": True,
    "resetKeyboard": True
}
device_driver = webdriver.Remote('http://127.0.0.1:' + str(device_port) + '/wd/hub', desired_caps)

等待启动好了app之后，我们开始处理业务1，下滑刷新视频，此处调用自己封装的滑动方法：

swipe_page(device_driver, 0.5, 0.25, 0.5, 0.75)
def swipe_page(driver, x1, y1, x2, y2):
    screen = AppiumOprationPage.get_size(driver)
    screen_x1 = int(screen[0] * x1)
    screen_y1 = int(screen[1] * y1)
    screen_x2 = int(screen[0] * x2)
    screen_y2 = int(screen[1] * y2)
    driver.swipe(screen_x1, screen_y1, screen_x2, screen_y2)

等待视频刷新出来后执行业务2，快速左滑进入用户主页：

flick_page(device_driver, 0.8, 0.5, 0.2, 0.5)

此处flick方法和swipe方法内部是一样的，appium提供了两个滑动方法，swipe为普通滑动，通过给定坐标进行滑动，flick为快速滑动，通过给定坐标滑动之后开始做均减速滑动直到停止，滑动速度较快。
进入用户主页之后，我们需要判断按钮的id，标签位置等参数来进行点击，接下来主要介绍如何获取【关注】的标签位置：
使用appium启动app后，手动滑动进入用户主页，此时刷新appium页面中间的刷新按钮，点击左边的【关注】，此时可以看到中间列出的xml结构，以及右侧的按钮基本信息，通过这些信息，可以得到一个关注按钮的Xpath：

//android.widget.TextView[@text='关注']

再对这个按钮进行点击即可进入关注页面，开始循环下滑到底即可：

driver.find_element_by_xpath("//android.widget.TextView[@text='关注']").click()
flick_page(device_driver, 0.5, 0.75, 0.5, 0.25)

完成下滑后，需要用同样的方法获取到返回上一层按钮的xpath：

//android.widget.ImageView[@resource-id='com.ss.android.ugc.aweme:id/nj']

然后点击返回上一层回到用户主页：

driver.find_element_by_xpath("//android.widget.ImageView[@resource-id='com.ss.android.ugc.aweme:id/nj']").click()

tips：
1.获取xpath不要使用绝对路径，经过大量测试，绝对路径在不同环境下是不一样的，使用相对路径则比较稳定
2.可以使用一些页面文字元素，id进行相对定位，再取到最终需要的元素
3.不要使用resource-id进行定位，经过大量测试，这个id不是唯一的，只能定位到第一个
4.也可以使用android-sdk\tools下面的uiautomatorviewer工具进行xpath定位，不过需要升级uiautomatorviewer，经过大量测试，对于抖音app的一些高版本，uiautomatorviewer无法获取其xpath。
通过同样的方法，分别点击【关注】【粉丝】【作品】【喜欢】，即可进行一个完整的操作，在使用上一次讲到的mitmproxy进行代理，将所有的数据进行解析入库，便可将所有的数据采集到自己的数据库中，或者将视频下载到本地硬盘。

进阶

以上方法，经过大量的测试，每天采集的数据非常有限，问题如下：
1.一台模拟器，滑动速度有限
2.数据解析效率不高
针对以上两点问题，后来又加入了新方案，支持了模拟器的横向扩展（需要电脑硬件条件达标），以及数据的分布式解析，批量入库。
新方案完成后，两天的测试，使用了两台模拟器滑动采集，第一天10小时，采集了53万数据，而第二天，做了性能测试，10小时数据量竟然达到了111.6万，在测试过程中，感觉数据解析一直没有达到饱和，预测可以拖4台模拟器，只是我的电脑硬件配置没那么高，跑不了4台模拟器，所以就没有进行极限测试。
如下为两台模拟器滑动过程截图，以及每天采集数据量的一个统计图：

更多抖音，快手，小红书数据实时采集接口，请查看文档： TiToData

抖音数据采集教程，高级版

运行环境准备工作

业务场景说明

代码准备

进阶

你可能感兴趣的:(大数据)