Python爬取pandaTV弹幕

Python爬取pandaTV弹幕_第1张图片

主要思路

对PandaTV直播间抓包分析得出的结论有:

(1)通过GET请求获取弹幕服务器地址;

(2)和弹幕服务器建立WebSocket连接后的具体过程需要在主页面引用的JS文件中找(建立连接、发心跳包、解压弹幕消息);

(3)WebSocket中传输的json对象为明文形式。

开发工具

Python版本:3.5.4

相关模块:

requests模块以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

使用方式

(1)直接运行

功能:

根据输入的房间号,显示该房间实时弹幕。

若需其他功能请自行修改源代码。

CTRL+C键可停止程序运行。

首页随便找个房间演示下,如下图所示:

Python爬取pandaTV弹幕_第2张图片

(2)作为模块导入

使用方式如下图所示:

Python爬取pandaTV弹幕_第3张图片

说明与简单实例

返回的弹幕数据格式为:

Python爬取pandaTV弹幕_第4张图片

不是特别了解直播平台里这些东西是什么意思,了解了貌似也没什么用,因此对其他数据有兴趣的请自行了解获取其含义。

写了个将用户昵称及其发言内容存入excel中的脚本作为简单实例。

运行方式如下图所示:

Python爬取pandaTV弹幕_第5张图片

结果保存在results文件夹中,默认以房间号命名:

Python爬取pandaTV弹幕_第6张图片

更多

关注转发文章后关注微信公众号:python工程狮,回复关键词“pandaTV”

你可能感兴趣的:(python,网页爬虫,弹幕,pycharm)