数据分析项目

项目可分为三类:对应项目如下_

1.可视化项目:

项目一:2021中国大学综合排名分析+可视化

2021中国大学综合排名分析+可视化

2.探索性数据分析(EDA)项目:

项目三:爬虫电影预测新电影的票房分析

对爬取到的结果进行数据分析——回归问题,

  • 对于回归问题,其输出空间B是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。
  • 对于分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。

①合并三个文件,得到一个大的数据集,并且查看head()信息是否正确。

②查看电影名字是否重复,重复的直接删除。

③清洗数据,取出只有票房纪录的电影,其次在拥有票房纪录的数据中再清洗出具有详细统计信息的数据。

④随机选择训练集和数据集,并且将电影类型编码为带分数的函数,重新将训练集和测试集整理成数字类型

⑤使用机器学习方法训练测试,决策树回归、线性回归、KNN回归、随机森林回归、Adaboost回归、GBRT回归、Bagging回归、Extra Tree极端随机树回归、

回归的score我觉得应该是越小越好,但是model.score应该是越大越好

⑥预测新电影的票房

有个小瑕疵就是只能预测数据集里面的数据,对于数据集之后的电影是不能预测的

⑦对数据进行了少量分析,第一个分析是年份电影数量,第二个是分析哪类电影最受欢迎

3.预测建模:

项目二:kaggle比赛——泰坦尼克号预测幸存者

泰坦尼克号幸存者预测

项目四:TMDB电影数据分析与评分预测——改进项目三版

        展示了问题分解、数据清洗、数据分析与可视化的过程,最后给出了简单的预测模型。

        数据集来源:kaggle提供的Internet Movie Database(TMDB),包含近5000部电影

        数据集地址:https://www.kaggle.com/tmdb/tmdb-movie-metadata

        框架思路:①、准备工作——1.1数据载入与预览

                                                       1.2数据清洗和加工:查漏补缺,去重,纠错

                                                       1.3数据筛选

                           ②、票房 & 评分分析——2.1概览(票房& 评分Top10& 变化趋势)

                                                                    2.2类型(不同类型影片的数量变化趋势、票房& 评分)

纪录片、历史、战争、戏剧惊人、西部、音乐、动画、犯罪、烂漫、神秘、冒险、惊险、幻想、家庭、科幻、动作、戏剧、恐怖

                                                                    2.3导演(Top10、票房& 评分分布)

                                                                    2.4主演(Top10、票房& 评分分布)

                                                                    2.5档期(数量分布、票房分布)

                                                                    2.6有趣的发现:

  1. 电影的投资回报率在稳步上升,至2015年约为2.5倍,电影行业前景光明。
  2. 电影票房与评分的相关性不大。
  3. 动画片是平均票房最高的影片类型,但位于票房最顶端的往往是科幻+动作片。剧情片数量最多,但票房表现平平。
  4. 如果预算有限又想获得高收益,纪录片是非常好的选择。
  5. 4月和5月是上映影片的最佳档期,竞争小,容易获得高票房               

     预测思路:假设评分的主要影响因素是影片类型、导演和主演,对于待预测的影片,筛选出这3个因素与之相似程度最高的5部电影,计算他们的平均评分,作为待预测影片的评分。

                     ③、电影评分预测——3.1相似度计算

以类型为例,假设现有3中影片类型(科幻、动作、剧情),A影片为科幻+动作,B影片为动作,构造一个二元数组来表示影片的类型,A影片为[1, 1, 0],B影片为[0, 1, 0]。两部影片的相似程度可以用它们的向量夹角(cos(A, B))来表示,值越大说明越不相似。

                                                         3.2评分预测

你可能感兴趣的:(数据分析)