基于豆瓣网电影数据的分析与可视化

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。

文章目录

    • 一项目简介
    • 系统主要内容
  • 二、功能组成
    • 3.2.1 系统功能需求分析
    • 3.2.2 各功能用例分析
  • 三、系统展示
    • 关键词分析观众看点
    • 从豆瓣评分趋势的角度分析最近热门中国大陆作品质量
    • 从不同类型的电影数量角度分析观众喜欢的电影类型
    • 6.4 电影评价人数
  • 六. 总结

一项目简介

   本课题首先利用Python+Scrapy建立一套爬虫系统,收集豆瓣网的相关数据,通过Mysql数据库把获取到的电影名、电影导演、电影评分、电影类型、评论用户等数据进行持久化,为整个可视化系统提供了广泛而可靠的数据支持。最后使用Python提供的第三方库Matplotlib、Pands和Excel数据可视化工具进行数据清洗和以图形的形式直观地展示数据结果,并多角度分析电影的发展,得出相关结论。

系统主要内容

这次课题的主要内容是通过Python3+Scrapy框架爬取所需要的1000多个数据,并全部存入Mysql,然后对存入Mysql中的数据进行数据清洗与提取成Csv文件、Excel数据表和文本文件等等。通过Python第三方库Matplotlib等对Csv文件或者文本文件中的内容进行分析,或将Excel数据表用Excel可视化工具进行分析。本次课题主要研究高评分豆瓣电影之间的关系,能够带给观众更方便的电影观看选择,以及研究观众在豆瓣电影评论区的短评内容,带给电影制作方更直观的观众观看后的感想与体会

二、功能组成

3.2.1 系统功能需求分析

系统的使用者主要是影评人员,对系统的可视化模块进行查看,将数据汇报给片方,片方根据影评人员汇报的数据对电影信息进行相应的处理。本系统主要实现了数据采集模块和可视化功能模块。如图3-1系统用例图所示。

基于豆瓣网电影数据的分析与可视化_第1张图片

图3-1系统用例图

3.2.2 各功能用例分析

(1)数据采集用例说明:数据获取用例详细描述如下表3-1所示。
表3-1数据采集用例描述
基于豆瓣网电影数据的分析与可视化_第2张图片

(2)电影信息分析用例说明:电影信息分析用例详细描述如下表3-2所示。
表3-2电影信息分析用例描述
基于豆瓣网电影数据的分析与可视化_第3张图片

(3)短评信息分析用例说明:短评信息分析用例详细描述如下表3-3所示。
表3-3短评信息分析用例描述
基于豆瓣网电影数据的分析与可视化_第4张图片
该系统可以大概分为2个功能模块:数据采集和数据可视化。其中数据采集功能模块,主要是负责从网上自动采集数据并直接存入数据库。采用的当下热门的Scrapy框架和Mysql。数据可视化功能模块,主要负责将清洗后的数据通过图表方式展示出来。采用的当下流行的第三方库Matplotlib、Jieba等。系统功能结构如图4-2所示。

基于豆瓣网电影数据的分析与可视化_第5张图片

图4-2系统功能结构图

三、系统展示

关键词分析观众看点

《疯狂动物城》短评文本词云图如图6.1所示。从图6.1可知,这部影片是动画类型。影片角色有狐狸、兔子、树懒等。图中存在“最佳”、“好看”、“不错”、“细节”、“可以”等“关键字”,可以分析出这部影片作品质量比较高,观众对这部影片持支持态度。喜欢动画类型但是找不到好电影的就可以尝试观看该影片,电影制片方也能借此分析出观众们喜欢的看点是什么。

基于豆瓣网电影数据的分析与可视化_第6张图片

图6.1《疯狂动物城》短评文本词云图

从豆瓣评分趋势的角度分析最近热门中国大陆作品质量

横坐标是豆瓣评分,评分区间是0-10。纵坐标是相同评分的影片数量。中国大陆最近热门电影作品豆瓣评分集中趋势直方图如图6-2所示。

基于豆瓣网电影数据的分析与可视化_第7张图片

图6-2中国大陆Top250部电影作品豆瓣评分集中趋势直方图
从图6.2可知,中国大陆Top250部电影的豆瓣评分集中在8-9分之间,其中8.8分最多,8.7分其次。低于8.4分的作品很少,但是高于9分左右的作品也比较少。8-9分之间有道“分水岭”,影片数量呈悬崖式下跌。可以分析出“分水岭”右边的电影作品是特别优秀的作品,看过的基本都打了高分的那种。而左边则是比较优秀或者不优秀的作品,能够打动大部分人却很难获得所有看过这部电影的人的赞赏。中国大陆的电影还存在上升空间,希望能够跨过“分水岭”,带给观众更多的精品作品。

从不同类型的电影数量角度分析观众喜欢的电影类型

中国大陆电影的类型信息有19种,我比较喜欢观看的类型有爱情、动画、动作、犯罪、古装、家庭、剧情、真人秀等,TOP250电影比较如图6.3所示。
从图6.3可知,剧情类型的电影最受欢迎,第二受欢迎的是喜剧类型。第三是动作类型,有117部。受众比较少的电影类型是传记、犯罪、古装、家庭、音乐、惊悚等等。可以分析出电影市场的剧情类型的电影需求量最高,因为国人受众最多的电影类型是剧情。

基于豆瓣网电影数据的分析与可视化_第8张图片

图6-3中国大陆最近热门不同类型的电影数量比较

6.4 电影评价人数

在豆瓣上,评价人数在5000-10000的最多,其次是10000-15000人次,最低是1000人次。从数据来看,在豆瓣进行电影评价的人较多,总人数超过了150000人次。

六. 总结

   使用Python3+Scrapy获取数据,使用Pymysql+Mysql存储数据,使用Pandas清洗数据,Python第三方库Matplotlib和Excel数据可视化分析工具进行了数据的可视化。本文对《疯狂动物城》批注文本进行了直观的云图分析;从不同电影的评分变化角度分析最近热门中国大陆作品质量;从短评评分占比角度分析用户对《疯狂动物城》这部电影的接受程度;从豆瓣评分集中趋势的角度分析最近热门中国大陆作品质量;从演员担任不同电影的主演次数的角度分析观众接受度;从不同类型的电影数量角度分析观众喜欢的电影类型。
在这个大数据时代,电影大数据分析早已经开始取得非常不错的实际应用。我们可以快速地了解到和找到各种电影统计数据,如:电影票房的排行、观影的人群年龄和性别的分布、电影的评价等级、长影评和短影评等等使用影评数据能够反映观众对电影最直接的感受和评价,而最重要的是真实反映行业和观众的真实观影和评价。本次的课题虽然也对电影的评论数据进行了很多的分析,但都是比较浅显的,以后可以进行更深度地理解和分析。比如可以记录每个用户在观看一部视频电影时会在哪里进行暂停、回放、快进,以及对评论和搜索的请求这些数据,然后对这些数据进行分析。

你可能感兴趣的:(大数据,python,大数据,python)