拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享

原文链接:http://tecdat.cn/?p=26131 

纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现了几部大热作品,加之BBC纪录片造假的舆论导向,让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站,是目前主流视频网站上最丰富、最接近的数据来源。

数字特征和文本特征相结合,分析影响播放量的因素。采用回归树模型分析自变量对播放量的影响。

纪录片播放量分布

视频播放量是检验视频质量和视频热度的一个直观媒介。内容质量高、话题性强的视频自然会引起广泛关注。对于没有与平台签约的UP主来说,通过视频创作激励计划和奖励机制(充值计划),播放量与他们的收入直接挂钩。探讨影响纪录片播放量的因素,有助于更好地理解如何提高纪录片视频的关注度,以及如何更好地创作出令人愉悦的自制微纪录片。

纪录片的播放量与它的内容主题有关,有些主题很受欢迎,有些则很小众。不同的人有不同的兴趣点,会体现在弹幕、金币、分享等指标上,所以不同类别下的纪录片分布也会有所不同。

拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享_第1张图片

为了便于观察,图中只显示了播放量低于7000的纪录片。从图中可以看出,四类纪录片的播放量分布存在明显差异,人文●历史类纪录片的播放量总体上高于其余三类,且呈右偏态(数据集中的所有定量变量都是右偏态的)。军事类和社会食品类纪录片的分布则比较接近。旅游类纪录片的分布比较接近,总的来说,四类纪录片的播放量差异很大,因此不能用同一个模型进行分析。有必要对参数进行区分,并对每个类别下的纪录片进行不同的分析。

纪录片高频词特点

以下是对各个纪实分类下的文本的词频特征的分析。哔哩哔哩网站上最相关的纪录片细分类别是社会和旅游类,该类别的纪录片文本的高频词比较生活化。下图是对该细分领域的纪录片视频文本进行细分过滤后得到的高频词的词频图。

拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享_第2张图片

图中显示了社会和旅游纪录片文本中的12个高频词。其中,"旅游 "以11次排名第一,与 "旅游 "相关的 "旅游 "和 "旅游摄影 "分别排名第4和第6位。"食品 "以1111次排名第二,与 "食品 "相关的 "食品 "排名第11。"人文 "以607次排名第五,而与之相关的 "纪录片 "则排名第八。

此外,"中国"、"日本 "和 "世界 "的出现频率也很高。文字是由UP主编辑的,目的是让用户更好地理解视频内容,国家类高频词的出现表明,纪录片内容发生的国家是观众决定是否观看视频的重要决定。

词频分析显示了高频词在纪录片中的分布情况,但不能仅根据词频给出纪录片的选择建议。

播放量的影响因素分析

接下来,我们研究变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响程度。

对回归树进行模拟,在RMSE折线图的拐点处确定最优的树深为7,叶子节点的最小样本数设为25,分支节点的最小数量设为50。

进行十折交叉验证,建立回归树,下图为回归树的模型结构。

拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享_第3张图片

在图中,观察叶子节点的框线图可以发现,大部分纪录片的播放量都很低,这些纪录片位于树状图的左侧,其判别变量是评论数和弹幕数。树状图的最右边的叶子节点划分了具有高播放量的纪录片,其判别变量是评论数和弹出窗口数,其次是相邻的左边叶子节点,其父节点有评论数、弹出窗口数和硬币数的分类变量。因此,与播放次数密切相关的变量是弹幕数、评论数和金币数,它们对高播放次数的影响更大。从右侧的叶子节点可以看出,如果评论数、弹幕数和金币数越高,那么播放量也就越高。在建立回归树模型时,自变量的重要性依次为:评论数(44)、弹幕数(18)、金币数(17)、分享数(8)、粉丝数(6)、收藏数(6)和提交数(1)。最重要的变量是观众与纪录片视频和UP主之间的互动程度,UP主在制作视频和选择能产生强烈互动的内容材料时,可以考虑到这一点。但是,这一点比较主观,没有量化的调整方案,也无法控制,无法确认所选的主题素材是否会带来高数量的评论和弹幕。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,__拓端数据(__tecdat__)__不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。


拓端tecdat|回归树模型分析纪录片播放量影响因素|数据分享_第4张图片

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

你可能感兴趣的:(数据挖掘深度学习人工智能算法)