目录
赛题介绍
赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高
### 数据说明
#### 数据文件说明:
train_click_log.csv
:训练集用户点击日志testA_click_log.csv
:测试集用户点击日志articles.csv
:新闻文章信息数据表articles_emb.csv
:新闻文章embedding向量表示sample_submit.csv
:提交样例文件
Field | Description |
---|---|
user_id | 用户id |
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击地区 |
click_referrer_type | 点击来源类型 |
article_id | 文章id,与click_article_id相对应 |
category_id | 文章类型id |
created_at_ts | 文章创建时间戳 |
words_count | 文章字数 |
emb_1,emb_2,…,emb_249 | 文章embedding向量表示 |
MRR(Mean Reciprocal Rank)
:首先对选手提交的表格中的每个用户计算用户得分:
如果选手对该user
的预测结果predict k
命中该user
的最后一条购买数据则s(user,k)=1
; 否则s(user,k)=0
。而选手得分为所有这些score(user)
的平均值。
提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。其格式如下:
user_id,article_1,article_2,article_3,article_4,article_5
其中user_id
为用户id
, article_1,article_2, article_3, article_4, article_5
为预测用户点击新闻文章Top5的article_id
依概率从高到低排序,例如:
user_id,article_1,article_2,article_3,article_4 ,article_5
200000,1 ,2,3,4,5
200001,1 ,2,3,4,5
200002,1 ,2,3,4,5
200003,1 ,2,3,4,5