Python爬虫实战4:用腾讯视频46w条弹幕带你看《三十而已》,前方高能!

三十而已:又一部养活万千公众号的热剧

首先问一个问题:关于热播都市剧《三十而已》,到底有多少种解读方式?

随手翻了翻公众号发布的相关文章,我想答案是无数种。

中年女性危机成人社会潜规则,从顾佳的衣橱王漫妮的“精致穷”,从学区房婚姻的真相,从配乐渣男图鉴再到高段位绿茶语录......

可以说这部剧从里到外、从上到下都充满了话题点,编剧深知如何打造人设才能让观众看得欲罢不能,产生极强的代入感,随便一个话题点都能分分钟狠狠戳中观众的痛点和痒点。

今天这篇文章,我想以腾讯视频剧集弹幕的角度,来挖一挖弹幕中的宝藏和那些大数据才能告诉我们的事儿。

数据说明

本次通过Python一共爬取了1到25集共计25集的弹幕数据,总计爬取到459159条弹幕,平均每集1.6w条(间隔30s抓取一次),字符数约550w。其中用户名非空的用户数为231931个,占比51%。

注:在腾讯视频每集开头展示的弹幕数远比爬取到的要大,比如第一集就有高达20万条弹幕条数!但爬取时发现每页大概200条,一共100页左右,推测每次返回的内容是随机的,但条数有限制,因此单集只能爬取到一万多条,不过这个量级也足够做数据分析使用了~

数据来源时间:2020年07月31日22:00

爬取的信息包括:

'用户名','内容','会员等级','评论时间点','评论点赞','评论id','集数'

在进一步分析前,首先对数据做简单的预处理。经观察,某些用户会重复发送同样内容的弹幕,按照每集同一用户对重复弹幕内容进行去重操作,得到数据条数为390547,是之前的85%,相当于有15%的弹幕内容是重复的,最终的分析基于这39w条数据进行。

每集弹幕点赞走势

统计每集弹幕的点赞数,发现从20集开始点赞总数和平均点赞数均明显变少,推测原因是越早之前的剧集累计观看人数越多,因此获赞量相应也越高,存在一部分观众属于延迟追剧的类型,等这部剧结束了估计后面几集的点赞量就上来了。从目前数据来看,点赞量在第3、11和17集迎来了若干个小高峰。

对第3、11和17集分别绘制词云图发现大家都在聊这些:

第三集
11集
17集

弹幕爱好者究竟有多狂热?

如前文所述,有将近一半的弹幕数据对应的用户名为空,为方便对用户维度进行分析,此处过滤掉用户名为空的弹幕数据,得到以下列表数据。

从表中可看出,在这25集中,排名第一的用户(用户名为“.”)一个人就贡献了高达1031条的弹幕量!真可谓人形弹幕发射器了!而且,像他这样的狂热弹幕爱好者,居然还不止一个......作为一个看剧从来不发弹幕的人,表示非常瑞思拜!

上榜的用户中,最少平均每集发送22条弹幕,最多可达到57条弹幕,其中“浮若年华”这位朋友,其发送的单条弹幕平均点赞量达到了惊人的145条,莫非是传说中的“金句王”?!

接下来,我们关注下这位TOP1用户在每一集中发送的弹幕数情况,平均值在41条,他在第3、5和14集表现得最为非常活跃。


那么问题来了,如此高产的他发送的弹幕究竟是什么样的内容呢?是纯灌水?走心?还是搞笑类?我们来看下他发过的高赞弹幕TOP10——

看起来很真情实感啊,说明他真的是在用心追剧了,好评!

顺便再看看平均点赞量达到145的那位朋友的高赞弹幕——

感觉是个王漫妮角色cos粉

除了总弹幕贡献TOP用户,我还做了一张平均每集发送弹幕数TOP10的用户图表:

这些用户的战斗力也非常强悍,一集发60多条弹幕,真厉害!不过平均点赞量就跟发送数量关系不太大了,排最后的用户平均点赞量过百,排名第一。

普通弹幕玩家的水准

看完狂热的弹幕爱好者的神操作,我们再来看看普通用户的行为吧。

从整体数据分析,单人弹幕发布条数分布如下图:

这个分布图看起来就正常多了,57%的用户在25集里只发过1条弹幕,发布5条以上的占比合计约15%,发布30条以上弹幕的用户数占比为1.9%。

再结合每位用户在这25集里发过弹幕的集数的分布:

整体来看,绝大多数用户只有某1集发送过弹幕,累积在5集或以上发送过弹幕的用户数占比非常小。

从弹幕长度分布来看,发布长度在7-20字之间是主流,占比达到7成,发布弹幕数在4个字(含字符)以下的仅占3.6%,说明凡是发送弹幕的用户,并不是惜字如金的类型,反而还挺乐意分享自己的观点和看法的,毕竟还有0.5%的弹幕长达30个字以上!

实际上,弹幕长度超过40的高赞内容里,有不少是因为重复使用标点符号带来的长度虚高,看来下次处理时应剔除掉特殊符号会更为准确。

最后,从观众的会员等级来看,绝大多数都是普通等级的用户。

高赞弹幕来袭!!!

筛选出每集点赞量TOP1的内容如下表:

结果令人震惊,尽管之前分析的发送总数TOP和平均发送数TOP用户各不相同,但高赞弹幕的发布人居然惊人的一致,从第1集到第15集,全部被这个名叫“追剧小奶鹅”的用户给承包了!顺便搜到这位用户的微博,简介写着“腾讯视频电视剧弹幕专业陪聊鹅”,话说这应该是腾讯视频的运营吧?

如果过滤掉这个用户发布的弹幕,再重新取每集点赞TOP1的弹幕如下:

弹幕视角主角情感倾向分析

要过滤出与各主角相关联的弹幕,必须根据关键词去定位内容。通过简单浏览与剧中主角相关的弹幕内容,整理出如下关键词词库,用以识别某条弹幕在议论谁。

特别声明:以上负面相关关键词仅针对角色,系从抓取到的弹幕内容中提取,不代表本人立场,也请勿上升演员本人(我的求生欲)

根据以上词库匹配到的数据如下:

结果让我有些惊讶,顾佳不是第一女主吗,为什么王漫妮的讨论度反而更高?另外,陈屿的讨论度也比许幻山要高。

仔细看弹幕会发现很多观众喜欢角色代入,发布诸如【王漫妮:原以为是非诚勿扰,没想到是变形计 】这类加入主角名前缀的弹幕文案,推测这是其中一个原因。我猜测可能的原因是:1)事实确实如此,2)弹幕数据不全,目前一集20w的弹幕量只爬取到10%不到,3)角色关键词提供的不充分;

进一步分集统计提及主角的弹幕数量如上图所示。

接下来,应用情感分析工具SnowNLP对主角相关弹幕内容进行情感评分,分数在从0到1的区间内,数字越大代表文本情感越正向。

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,而这个库可以方便地处理中文。

这个情感评分走势不知是否符合看过全剧的观众的预期呢?

弹幕观众对三位女主的喜好度:顾佳>王漫妮>钟晓芹

对三位男性角色的喜好度:许幻山>梁正贤>陈屿

毫无疑问风评最差的是剧中的小三角色林有有,来看看关于她的高赞弹幕——

我有理由怀疑林有有跟茶深度绑定了,这么喜欢说茶言茶语,一想到那只冰淇淋就觉得一阵恶心

许幻山在开局情感评分一度高达0.9,然而随着剧情的推移,评分逐步下降,尤其是后期出轨真令人生气,大家都盼着顾佳早日离婚呢!不过,令我意外的是他那条线居然始终在王漫妮的上方

于是我不由得怀疑起了这个评分工具的准确性,注意到在24集时,许幻山的评分突然高涨,定位一下这部分相关弹幕:

仔细看完内容和评分,我缓缓打出一堆问号???

emmm果然还是数据有问题,机器并不能做到像人去进行语义分析那样准确,何况这个工具之前貌似是在电商(如淘宝商品评价)里用的比较多,而且我也没有训练过相关数据集,造成整体评分结果可信度略低,总之,以上结果勉强可作参考。

一个小彩蛋

在分析过程中,我发现每到剧集快结束时,弹幕都会有讨论BGM的内容,出现最多的名字便是“金池”,原来这位姐姐几乎承包了这部剧的OST,真的好棒啊!

听到她的声音就想起了2012年第一季《中国好声音》,那首惊艳四座的《夜夜夜夜》,还有和魏语诺PK的《对你爱不完》,想起自己整体泡在贴吧看大神分析每一场表演,分析得如同武林高手过招一般,一招一式都用心良苦。完全不知如何评价唱功的我,在那一年好声音里记住了唱功高超的金池。

三十而已OST

贴吧大佬对那场PK的评价

【爬虫系列相关推荐】

用微博大数据带你看《乘风破浪的姐姐》

我用Python爬了豆瓣图书,发现言情/推理/科幻小说届的霸主居然是TA!

致0-4岁的运营人:招聘大数据告诉你运营岗需求现状及职业发展前景

参考资料

Python爬取394452条《都挺好》弹幕数据,发现弹幕比剧还精彩?

Python爬取 201865 条《隐秘的角落》弹幕,发现看剧不如爬山?

你可能感兴趣的:(Python爬虫实战4:用腾讯视频46w条弹幕带你看《三十而已》,前方高能!)