Movielens/IMDB电影数据分析(一)

该项目源自科赛网的训练项目。

背景

项目简介

此数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据。

MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用。 这些数据是由1995年1月9日至2015年3月31日期间的138493个用户创建。

练习内容

MDBTOP10000数据集包含1950-2012年IMDB TOP10000电影排行榜数据集。包含电影名称,上映时间,评分,投票数,时长和流派信息。 以下为可选角度:

  1. 什么样题材的电影评分会相对较高(较低);
  2. 电影时长对评分是否有影响;
  3. 不同年代什么类型电影较受欢迎;
  4. 其他自选角度。

该数据集由MovieLens的“genome-scores.csv”“genome-tags.csv”“links.csv”“movies.csv”“ratings.csv”“tags.csv”6个数据文件和“imdb10000.csv”组成,但科赛网站上的数据集已经丢失。该数据集的前5个部分可根据超链接下载,但是imdb10000.csv缺失,网上寻找无果(csdn上倒是有,但是我没有积分啊),因此考虑自己用爬虫爬取该部分数据。

文件名 genome_scores.csv genome_tags.csv link.csv movie.csv rating.csv tag.csv imdb10000.csv
内容 包含tag的相关性数据 包含tag信息 电影在IMDb与TMDb中的ID 电影信息 用户对电影的评分信息 用户对电影的tag数据 Top10000电影名称,上映时间,评分,投票数,时长和流派信息

爬虫目标网址:https://www.imdb.com/search/title?title_type=feature&year=1950-01-01,2012-12-31&sort=num_votes,desc&ref_=adv_prv

爬取目标:Top10000电影imdbID,名称,上映时间,评分,投票数,时长和流派信息

 

你可能感兴趣的:(实践过程)