爬虫&数据分析实战——腾讯视频《奔跑吧》第九季弹幕数据分析

原文链接

淘宝搜券小助手上线啦,喜欢网购的你赶快来试试吧~!淘宝搜券微信机器人正在开发中,尽情期待!点击链接进入→淘宝搜券小助手

爬虫&数据分析实战——腾讯视频《奔跑吧》第九季弹幕数据分析_第1张图片

一、概述

1.数据来源

本次数据分析使用的数据来源腾讯视频的《奔跑吧》第九季第八期的弹幕数据。

2.数据概述

数据格式为JSON格式数据,包含在回调函数中,需使用正则表达式提取出来后再进行后续数据分析操作

3.依赖包及格式文件介绍

requests库是一个常用的用于http请求的模块,它使用python语言编写,基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库,可以方便的对网页进行爬取,相比urllib更加方便,可以节约开发者大量的工作,是学习python爬虫的较好的http请求模块。

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。

Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

jieba的主要功能是做中文分词ÿ

你可能感兴趣的:(数据分析与可视化,可视化,python,数据分析,腾讯视频,弹幕)