利用Python爬取B站千万级数据,并对其进行简单的分析

说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉。B站上面除了动漫之外也有很多有趣的视频,也有很多教学视频,是非常不错的一个网站。

本篇文章要点

爬取10万用户数据

数据存储

数据词云分析

基本环境配置

版本:Python3

系统:Windows

相关模块:requests

Python爬虫的基本思路

利用Python爬取B站千万级数据,并对其进行简单的分析_第1张图片

实现步骤

爬取用户数据

利用Python爬取B站千万级数据,并对其进行简单的分析_第2张图片

存入数据库

利用Python爬取B站千万级数据,并对其进行简单的分析_第3张图片

利用Python爬取B站千万级数据,并对其进行简单的分析_第4张图片

词云分析

利用Python爬取B站千万级数据,并对其进行简单的分析_第5张图片

词云效果图

利用Python爬取B站千万级数据,并对其进行简单的分析_第6张图片
对Python感兴趣或者是正在学习的小伙伴,推荐我们的Python学习扣qun:784758214 ,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等【PDF,实战源码】,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

代码的思路

需要找到B站用户的关注列表的json接口,因为B站的隐私设置,一个人只能爬取其他人的前5页关注,共100人。

从数据库中获取用户的名字,重复的次数越多说明越多的用户关注,然后我使用fate的一张图片作为词云的mask图片,最后生成词云图片。

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家的支持。

你可能感兴趣的:(利用Python爬取B站千万级数据,并对其进行简单的分析)