TMDB电影数据分析

                                                     这是关于TMDB5000条电影数据的分析报告

       数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata

报告分为

    (1)提出问题

    (2)认识数据

    (3)清洗数据

    (4)分析数据

    (5)总结

(一)提出问题

     (1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影

     (2)电影票房与哪些因素相关,电影受欢迎程度的分析

     (3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比

     (4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

     (5)原创电影和非原创电影的分析

(二)认识数据

       从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集

       有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息

TMDB电影数据分析_第1张图片


TMDB电影数据分析_第2张图片

可以看出credits有4803行4列数据

TMDB电影数据分析_第3张图片

TMDB电影数据分析_第4张图片

可以看出movies有4803行20列数据

TMDB电影数据分析_第5张图片

2.数据清洗

(1)格式转化
   credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
   movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串

(a).credits  json解析

TMDB电影数据分析_第6张图片

TMDB电影数据分析_第7张图片

TMDB电影数据分析_第8张图片

TMDB电影数据分析_第9张图片

(b).movies  json解析

TMDB电影数据分析_第10张图片

(2)合并数据

  credits和movies中都有movie_id和title,检查这两个字段是否是相同的

TMDB电影数据分析_第11张图片

可以看出这两个字段是相同的,将movies的title删掉
 方法一:直接del DF['column-name']
 方法二:采用drop方法,有下面三种等价的表达式:
 1. DF= DF.drop('column_name', 1);
 2. DF.drop('column_name',axis=1, inplace=True)

 3. DF.drop(DF.columns[ : ], axis=1,inplace=True)

TMDB电影数据分析_第12张图片

df中有22个字段,分别为:
  movie_id : TMDB电影标识号
  title : 电影名称
  cast :演员列表
  director :导演
  budget :预算(美元)
  genres :风格列表,电影类型
  homepage :电影首页的 URL
  id :标识号
  original_language :电影语言
  original_title :电影名称
  overview :剧情摘要
  popularity :在 Movie Database 上的相对页面查看次数
  production_companies :制作公司
  production_countries :制作国家
  release_date :上映时间
  revenue :收入
  runtime :电影时长
  spoken_languages :口语
  status :状态
  tagline :电影的标语
  vote_average :平均评分

  vote_count :评分次数

(3)字段及缺失值处理

TMDB电影数据分析_第13张图片

TMDB电影数据分析_第14张图片

可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值


(三)数据分析及可视化

1.关于电影类型的分析

(1)获取电影类型

TMDB电影数据分析_第15张图片



TMDB电影数据分析_第16张图片

可以看出电影的类型主要是这20种

(2)转化日期格式


(3)电影类型与数量的关系

(1)分类型判断每部电影属于的类型


可以得到如果每行中包含哪个类型的就返回1,否则0

TMDB电影数据分析_第17张图片

(2)建立包含电影类型和年份的数据框

TMDB电影数据分析_第18张图片

TMDB电影数据分析_第19张图片

TMDB电影数据分析_第20张图片

可以看出电影的拍摄数量是从1992年开始大幅增加的


统计每个类型每年的数量

TMDB电影数据分析_第21张图片

电影类型随时间变化的趋势(折线图)

TMDB电影数据分析_第22张图片

TMDB电影数据分析_第23张图片

可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门

电影类型的数量关系(各个类型的总数量)

TMDB电影数据分析_第24张图片

各个电影类型的数量条形图


TMDB电影数据分析_第25张图片

可以看出Drama和Comedy是数量最多的前两个

各个电影类型的比例饼图

TMDB电影数据分析_第26张图片

TMDB电影数据分析_第27张图片

Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%

(4)电影类型与利润的关系

  (1)电影类型与利润的关系

TMDB电影数据分析_第28张图片

TMDB电影数据分析_第29张图片

电影类型的利润条形图

TMDB电影数据分析_第30张图片

TMDB电影数据分析_第31张图片

可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的

(2)观众更喜欢哪种类型的电影

TMDB电影数据分析_第32张图片

电影类型受欢迎的条形图

TMDB电影数据分析_第33张图片

TMDB电影数据分析_第34张图片

可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy

2.电影票房与哪些因素相关,电影受欢迎程度的分析

(1)每年的票房统计

TMDB电影数据分析_第35张图片

TMDB电影数据分析_第36张图片

电影的票房也是从1992开始大幅度增长的

(2)电影预算与票房的关系


TMDB电影数据分析_第37张图片

可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值

(3)电影评分与票房的关系

TMDB电影数据分析_第38张图片

可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域

(4)电影时长与票房的关系

TMDB电影数据分析_第39张图片

(5)评分与受欢迎的关系

TMDB电影数据分析_第40张图片

评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的

(6)电影时长与受欢迎的关系

TMDB电影数据分析_第41张图片

观众喜欢的电影时长大多是90-160分钟

3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比

TMDB电影数据分析_第42张图片

TMDB电影数据分析_第43张图片

(1)两家公司电影数量对比


TMDB电影数据分析_第44张图片

这两个公司拍摄的电影是差不多的

(2)两家公司的电影岁时间变化的趋势对比

TMDB电影数据分析_第45张图片


TMDB电影数据分析_第46张图片

TMDB电影数据分析_第47张图片

TMDB电影数据分析_第48张图片

可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速

(3)两个公司的利润对比

TMDB电影数据分析_第49张图片

4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

(1)对电影的导演进行分析

#direct=df['director'].value_counts()

#direct1=direct[:20]

*导演的拍摄数

TMDB电影数据分析_第50张图片

拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood  分别为27、21、20、20

*评分前20的导演

TMDB电影数据分析_第51张图片

这些导演的评分基本都差不多的

*票房前20的导演

TMDB电影数据分析_第52张图片

票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich

(2)关键字分析

TMDB电影数据分析_第53张图片

TMDB电影数据分析_第54张图片

TMDB电影数据分析_第55张图片

可以看出关键字显示的主要是independent film、woman、murder这些字段

(3)电影时长的分析

TMDB电影数据分析_第56张图片

可以看出评分较高的电影时长集中于80-150分钟之间

(4)电影产地分析

TMDB电影数据分析_第57张图片

TMDB电影数据分析_第58张图片

TMDB电影数据分析_第59张图片

TMDB电影数据分析_第60张图片

可以看出美国是电影产出大国,超过一半比例

5.改编电影与原创电影的分析

(1)改编电影与原创电影数量对比

TMDB电影数据分析_第61张图片

TMDB电影数据分析_第62张图片

可以看出原创电影占绝大部分

(2)原创电影与改编电影预算、收入、利润的对比

TMDB电影数据分析_第63张图片


TMDB电影数据分析_第64张图片

可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影





你可能感兴趣的:(TMDB电影数据分析)