电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie

数据集:

1.Netflix

描述:包含Netflix48万多个随机选取的匿名用户,对于17千多部电影的1兆多个电影评分

时间:1988.10~2005.11

 

内容:

包括training setmovie titlesprobe setqualifying set等文件。

Trainning set包含4个特征值:电影ID、用户ID、评分(1~5)、日期;

Movie titles包含3个特征值:电影ID、上映年份、电影标题;

Probe set用于测试,包含2个特征值;电影ID、用户ID

引用的论文:

[1]Matrix factorization techniques for recommender systems.2009

[2]Modeling relationships at multiple scales to improve accuracy of large recommender systems.2007

[3]Factorization meets the neighborhood a multifaceted collaborative filtering model

 

 

2.MovieLens

描述:按大小分成3部分

 

100k943个用户对于1682电影的100,000个评分;每个用户至少评级20部电影;包含用户的人口统计信息(年龄,性别,职业,邮编)

时间:1997.9.19~1998.4.22

包含u.datau.infou.itemu.genreu.useru.occupation几个文件

U.data: 用户id 、项目 id 、 评分、 时间戳

U.info: 用户数量、项目数量、评分数量

U.item: 电影id、电影标题、上映日期、光碟上映日期、IMDb URL、流派

U.genre: 流派

U.user: 用户id、年龄、性别、职位、邮编

 

1M 6,040个用户对于3,900部电影的1,000,209个评分

时间:2000

包含ratings.datusers.datmovies.dat

Ratings.dat: 用户id、电影id、评分(1~5)、时间标签

Users.dat 性别、年龄、职位、邮编

Movies.dat: 电影id、标题、流派

 

100M71567个用户对于10681部电影的10000054个评分

包含 movies.dat, ratings.dat 和 tags.dat.

Tags.dat:用户id、电影id、标签(tag)、时间戳

 

 

3.LDOS-CoMoDa

(1)基本情况

电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie_第1张图片

(2)统计情况:

用户年龄段大多数集中在1635岁之间;

大多数电影得到23个评分;

 电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie_第2张图片

电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie_第3张图片

 

文件每一行结构如下:

UserID,itemID,rating,age,sex,city,country,time,daytype,season,location,weather,social,endEmo,dominantEmo,mood,physical,desicion,interaction,director,

movieCountry,movieLanguage,movieYear,genre1,genre2,genre3,actor1,actor2,actor3,budget

来源:http://212.235.187.145/spletnastran/raziskave/um/comoda/comoda.php

 

每列的数值范围:

LDOS - CoMoDa dataset_____________________

Data fields:versionDate: date of the dataset versionuserID (15 - 200, some missing)itemID (1 -4138, some missing)rating (1-5)user's ageuser's sex (1=male, 2= female)user's cityuser's countrytime (1-4)daytype (1-3)season (1-4)location (1-3) weather (1-5)social (1-7) endEmo(1-7)dominantEmo (1-7) mood (1-3) physical (1-2) decision (1-2) interaction (1-2)movie directormovie's countrymovie's languagemovie's yeargenre1genre2genre3actor1actor2actor3movie's budget 

电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie_第4张图片

 上下文属性:_______________________

Context variables:time : Morning, Afternoon, Evening, Nightdaytype : Working day, Weekend, Holidayseason : Spring, Summer, Autumn, Winterlocation : Home, Public place, Friend's houseweather : Sunny / clear, Rainy, Stormy, Snowy, Cloudysocial : Alone, My partner, Friends, Colleagues, Parents, Public, My familyendEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, NeutraldominantEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, Neutral mood : Positive, Neutral, Negativephysical : Healthy, Ill decision : User decided which movie to watch, User was given a movieinteraction : first interaction with a movie, n-th interaction with a movie Context values in the database corespond to this order.(for example: daytype-> 1 = Working day, 2 = Weekend, 3 = Holiday

_______________________

Missing value:-1

 

 

4.AdomMovie


你可能感兴趣的:(电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie)