抖音爬虫教程,简单采集数据,菜鸟必看

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。
抖音爬虫教程,简单采集数据,菜鸟必看_第1张图片
我们按如下步骤模拟操作App:
1.启动抖音。
2.点击搜索按钮。
3.输入搜索关键词(抖音用户ID),点击搜索。
4.找到匹配的用户,点击关注。
5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。
于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。
模拟操作抖音App的脚本核心代码如下所示:
view plaincopy to clipboardprint?

from com.dtmilano.android.viewclient import ViewClient


def search_douyin_for_recommend_user(douyin_id):


# 采集指定抖音账号的关注推荐数据


# 连设备
serialno = None
if serialno:
    os.system('adbconnect{}'.format(serialno or ''))
    time.sleep(3)
    device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno)
    vc = ViewClient(device, serialno, autodump=False)

    # 强制关闭抖音  
    log(u'强制关闭抖音.')
    device.shell('am force-stop com.ss.android.ugc.aweme')
    time.sleep(2)

    # 启动抖音  
    log(u'启动抖音.')
    device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')
    time.sleep(5)
    # 暂停视频播放  
    log(u'点击屏幕,暂停视频播放.')
    device.touch(514, 1048)

    # 点击搜索按钮  
    vc.dump()
    search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj')
    if search_btn:
        log(u'点击搜索按钮,跳转到搜索页面.')
        search_btn.touch()

        vc.dump()
        # 点击搜索输入框  
        search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_')
        if search_input:
            log(u'点击搜索框,准备输入关键词.')
            search_input.touch()

            # 输入抖音ID  
            log(u'输入搜索关键词: {}.'.format(douyin_id))
            device.type(douyin_id.encode('UTF-8'))

            # 点击搜索按钮  
            search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8')
            if search_btn:
                log(u'提交搜索.')
                search_btn.touch()
                time.sleep(2)
                vc.dump()

                ## 切换到用户  
                # user_tab = vc.findViewWithText(u'用户')  
                # user_tab.touch()  

                # 找到匹配的  
                matches = []


                def find_matches(view):
                    if view.getClass() == 'android.widget.TextView':
                        text = view.getText()
                        if douyin_id.lower() in text.lower():
                            # 找到匹配的了  
                            log(u'找到匹配的: {}'.format(text))
                            matches.append(view)
                        else:
                            # print text  
                            pass


                vc.traverse(transform=lambda view: find_matches(view))
                if matches:
                    # 有没有已关注按钮  
                    btn = vc.findViewWithText(u'已关注')
                    if btn:
                        # 先取消关注  
                        log(u'之前关注过,先取消关注.')
                        btn.touch()
                        time.sleep(1)
                    user_matched = matches[0]
                    log(u'点击进入个人主页.')
                    user_matched.touch()
                    time.sleep(1)

                    # 点关注  
                    vc.dump()
                    follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei')
                    if follow_btn:
                        # 点击关注  
                        log(u'点击关注')
                        follow_btn.touch()
                        time.sleep(1)
                        # 点击查看更多  
                        vc.dump()
                        viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn')
                        if viewmore_btn:
                            # 点击查看更多  
                            log(u'点击查看更多系统推荐')
                            viewmore_btn.touch()
                            time.sleep(1)
                            i = 0
                            while True:
                                # 上滑动  
                                device.drag((345, 1762), (345, 550), duration=100)
                                log(u'上滑以加载更多')
                                i += 1
                                if i % 5 == 0:
                                    # 拖动10次判断一下是否还有更多  
                                    vc.dump()
                                    if vc.findViewWithText(u'暂时没有更多了'):
                                        log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))
                                        # 采集成功了  
                                        return True
                                    failed_tip = vc.findViewWithText(u'加载失败,点击重试')
                                    if failed_tip:
                                        log(u'加载失败,点击重试.')
                                        failed_tip.touch()
                        else:
                            # 没有找到查看更多按钮  
                            log(u'没有找到查看更多按钮')
                    else:
                        # 没有找到加关注按钮  
                        log(u'没有找到加关注按钮')
                else:
                    # 没有找到匹配的用户  
                    log(u'没有找到匹配的用户')
            else:
                # 没有找到搜索提交按钮  
                log(u'没有找到搜索提交按钮.')
        else:
            # 没有找到搜索输入框  
            log(u'没有找到搜索输入框.')
    else:
        # 没有找到搜索按钮  
        log(u'没有找到搜索按钮.')

上述脚本的运行截图如下所示:
抖音爬虫教程,简单采集数据,菜鸟必看_第2张图片


——————————————————————————————————————————

TiToData:专业的短视频、直播数据接口服务平台。

更多信息请联系: TiToData

覆盖主流平台:抖音,快手,小红书,TikTok,YouTube

——————————————————————————————————————————

TiToData:专业的短视频、直播数据接口服务平台。

更多信息请联系: TiToData

覆盖主流平台:抖音,快手,小红书,TikTok,YouTube

你可能感兴趣的:(大数据)