本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第五场 —— 零基础入门推荐系统之新闻推荐场景下的用户行为预测挑战赛。
赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。
为了更好的引导大家入门,还特别为本赛题定制了学习方案,其中包括推荐系统基础、通用流程和baseline方案学习三部分。通过对本方案的完整学习,可以帮助掌握推荐系统相关竞赛的基本技能。同时平台也将提供专属的视频直播学习通道,敬请关注平台通告。
新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及一些核心的思路等内容。
本次赛事分为两个阶段,分别为正式赛及长期赛。
长期赛
自2月5日开始,本场比赛将长期开放,报名和参赛无时间限制。
每天每位参赛选手可提交2次;排行榜每小时更新,按照评测指标得分从高到低排序;排行榜将选择历史最优成绩进行展示;
正式赛(11月20日 - 1月14日)
赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
train_click_log.csv
:训练集用户点击日志
testA_click_log.csv
:测试集用户点击日志
articles.csv
:新闻文章信息数据表
articles_emb.csv
:新闻文章embedding向量表示
sample_submit.csv
:提交样例文件
Field | Description |
---|---|
user_id | 用户id |
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击地区 |
click_referrer_type | 点击来源类型 |
article_id | 文章id,与click_article_id相对应 |
category_id | 文章类型id |
created_at_ts | 文章创建时间戳 |
words_count | 文章字数 |
emb_1,emb_2,…,emb_249 | 文章embedding向量表示 |
提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。其格式如下:
user_id,article_1,article_2,article_3,article_4,article_5
其中user_id
为用户id
, article_1,article_2,article_3,article_4,article_5
为预测用户点击新闻文章Top5的article_id
依概率从高到低排序,例如:
user_id,article_1,article_2,article_3,article_4 ,article_5
200000,1 ,2,3,4,5
200001,1 ,2,3,4,5
200002,1 ,2,3,4,5
200003,1,2,3,4,5
MRR(Mean Reciprocal Rank)
:首先对选手提交的表格中的每个用户计算用户得分
score(user)=\sum_{k=1}^5\frac{s(user,k)}{k}
其中, 如果选手对该user
的预测结果predict k
命中该user
的最后一条购买数据则s(user,k)=1
; 否则s(user,k)=0
。而选手得分为所有这些score(user)
的平均值。
赛题理解、数据分析、特征工程、召回模块、排序模块等通用流程进行学习,提供方式notebook或视频。
以上学习资料详见:论坛
基本方案介绍,提供方式notebook或视频。以上学习资料详见:论坛
零基础入门推荐系统 - 新闻推荐_学习赛_天池大赛-阿里云天池
GitHub - bluemapleman/NewsRecommendSystem: 个性化新闻推荐系统,A news recommendation system involving collaborative filtering,content-based recommendation and hot news recommendation, can be adapted easily to be put into use in other circumstances.