直播间弹幕采集

1.目标----实现直播间弹幕采集

  • 直播间信息
  • 礼物信息
  • 排行榜信息

2.xhr分析

从这里看出,直播的直播间消息,是protobuf的形式。
这里的请求是get的方式获取了历史的几条记录,实时的房间信息,将通过下面的websocket发送
很明显,这里的数据,应该是GZIP打包了。


3.实现思路

  • 模拟wss客户端
    • 我尝试了建立wss客户端去连接,发现服务器返回的响应头中的wss握手信息提示,http:named cookie not present,发现需要携带cookie参数
  • mitproxy中间人获取wss信息
    • chromedriver、selenium、mitmproxy

4.js调试

直播间弹幕采集_第1张图片
打上断点,一步一步跟踪堆栈信息,找到了原始binary数据转化为text数据的代码:
直播间弹幕采集_第2张图片
关键就是2973、2972的代码,是protobuf的反序列化,以及是否需要gzip的decode,推进调用栈寻找pushf

你可能感兴趣的:(python,爬虫,爬虫,模拟,数据分析)