数据挖掘竞赛题目 -- 电影推荐

竞赛简介

通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。

数据描述

本次比赛,我们提供了1千万左右的电影评分数据,每条评分记录都有时间戳(隐匿了具体时间,只保证顺序不变)。评分分为5级,1分最低,5分最高。

  1. 我们抽取了超过800万条评分记录,作为训练集,数据文件名为r1.train,字段格式为:

    UserID::MovieID::Rating::Timestamp
    用户i : : 电影a :: 评分 :: 相对时间
    用户j : : 电影b : :评分: : 相对时间

    说明

    1. UserID::MovieID::Rating::Timestamp ,四个字段分别代表:用户编号,电影编号,评分,相对时间;
    2. 每一行为一个用户对一个商品的评分,行之间用“回车符”分隔;
    3. 每一行各字段之间用“::”分隔。
  2. 我们还抽取了超过200万条评分记录,作为测试集。我们隐藏了用户对于电影的评分,仅保留用户和商品的评分关系,数据文件名为r1.test,字段格式为:
    UserID::MovieID::Rating::Timestamp

    用户i : : 电影a :: ** :: 相对时间
    用户j : : 电影b : : **: : 相对时间

    说明信息同训练集,Rating字段用“**”代替。

  3. 我们还提供了电影的详细信息,数据文件为movies.dat,格式如下:

    MovieID::Title::Genres

    MovieID是电影编号,Title是电影名称,Genres是电影类别信息。
    类别信息含义如下:
    • Action
    • Adventure
    • Animation
    • Children’s
    • Comedy
    • Crime
    • Documentary
    • Drama
    • Fantasy
    • Film-Noir
    • Horror
    • Musical
    • Mystery
    • Romance
    • Sci-Fi
    • Thriller
    • War
    • Western

任务描述

参赛者需要写出推荐算法,预测测试集中用户对于电影的评分。

评价标准

评分算法: regression-new_rmse
算法解释: 采用均方根误差RMSE来评测整个算法的推荐准确度

RMSE=1EP(μ,α)EP(rμαrμα)2rμαμα,rμαμα

你可能感兴趣的:(数据挖掘)