这是关于TMDB5000条电影数据的分析报告
数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata
报告分为:
(1)提出问题
(2)认识数据
(3)清洗数据
(4)分析数据
(5)总结
(一)提出问题
(1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影
(2)电影票房与哪些因素相关,电影受欢迎程度的分析
(3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比
(4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析
(5)原创电影和非原创电影的分析
(二)认识数据
从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集
有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息
可以看出credits有4803行4列数据
可以看出movies有4803行20列数据
2.数据清洗
(1)格式转化
credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串
(a).credits json解析
(b).movies json解析
(2)合并数据
credits和movies中都有movie_id和title,检查这两个字段是否是相同的
可以看出这两个字段是相同的,将movies的title删掉
方法一:直接del DF['column-name']
方法二:采用drop方法,有下面三种等价的表达式:
1. DF= DF.drop('column_name', 1);
2. DF.drop('column_name',axis=1, inplace=True)
3. DF.drop(DF.columns[ : ], axis=1,inplace=True)
df中有22个字段,分别为:
movie_id : TMDB电影标识号
title : 电影名称
cast :演员列表
director :导演
budget :预算(美元)
genres :风格列表,电影类型
homepage :电影首页的 URL
id :标识号
original_language :电影语言
original_title :电影名称
overview :剧情摘要
popularity :在 Movie Database 上的相对页面查看次数
production_companies :制作公司
production_countries :制作国家
release_date :上映时间
revenue :收入
runtime :电影时长
spoken_languages :口语
status :状态
tagline :电影的标语
vote_average :平均评分
vote_count :评分次数
(3)字段及缺失值处理
可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值
(三)数据分析及可视化
1.关于电影类型的分析
(1)获取电影类型
可以看出电影的类型主要是这20种
(2)转化日期格式
(3)电影类型与数量的关系
(1)分类型判断每部电影属于的类型
可以得到如果每行中包含哪个类型的就返回1,否则0
(2)建立包含电影类型和年份的数据框
可以看出电影的拍摄数量是从1992年开始大幅增加的
统计每个类型每年的数量
电影类型随时间变化的趋势(折线图)
可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门
电影类型的数量关系(各个类型的总数量)
各个电影类型的数量条形图
可以看出Drama和Comedy是数量最多的前两个
各个电影类型的比例饼图
Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%
(4)电影类型与利润的关系
(1)电影类型与利润的关系
电影类型的利润条形图
可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的
(2)观众更喜欢哪种类型的电影
电影类型受欢迎的条形图
可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy
2.电影票房与哪些因素相关,电影受欢迎程度的分析
(1)每年的票房统计
电影的票房也是从1992开始大幅度增长的
(2)电影预算与票房的关系
可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值
(3)电影评分与票房的关系
可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域
(4)电影时长与票房的关系
(5)评分与受欢迎的关系
评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的
(6)电影时长与受欢迎的关系
观众喜欢的电影时长大多是90-160分钟
3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比
(1)两家公司电影数量对比
这两个公司拍摄的电影是差不多的
(2)两家公司的电影岁时间变化的趋势对比
可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速
(3)两个公司的利润对比
4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析
(1)对电影的导演进行分析
#direct=df['director'].value_counts()
#direct1=direct[:20]
*导演的拍摄数
拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood 分别为27、21、20、20
*评分前20的导演
这些导演的评分基本都差不多的
*票房前20的导演
票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich
(2)关键字分析
可以看出关键字显示的主要是independent film、woman、murder这些字段
(3)电影时长的分析
可以看出评分较高的电影时长集中于80-150分钟之间
(4)电影产地分析
可以看出美国是电影产出大国,超过一半比例
5.改编电影与原创电影的分析
(1)改编电影与原创电影数量对比
可以看出原创电影占绝大部分
(2)原创电影与改编电影预算、收入、利润的对比
可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影