推荐系统实践--MovieLens数据集离线实验

1、数据集简介

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。

下载地址为:MovieLens | GroupLens,有好几种版本,对应不同数据量,本文所用的数据为1M的数据。


2、数据介绍

1m的数据解压后,可以看到四个主要的csv文件,分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv 和 movies.csv

ratings数据是一个有上下文的显性反馈数据集。
文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下:
userId, movieId, rating, timestamp
userId: 每个用户的id
movieId: 每部电影的id
rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数
数据排序的顺序按照userId,movieId排列的。

你可能感兴趣的:(数据挖掘,大数据)