AI比赛-推荐系统(一):新闻推荐【天池】

赛题简介

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第五场 —— 零基础入门推荐系统之新闻推荐场景下的用户行为预测挑战赛。

赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

为了更好的引导大家入门,还特别为本赛题定制了学习方案,其中包括推荐系统基础、通用流程和baseline方案学习三部分。通过对本方案的完整学习,可以帮助掌握推荐系统相关竞赛的基本技能。同时平台也将提供专属的视频直播学习通道,敬请关注平台通告。

新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及一些核心的思路等内容。

赛制说明

本次赛事分为两个阶段,分别为正式赛及长期赛。

长期赛

自2月5日开始,本场比赛将长期开放,报名和参赛无时间限制。
每天每位参赛选手可提交2次;排行榜每小时更新,按照评测指标得分从高到低排序;排行榜将选择历史最优成绩进行展示;

正式赛(11月20日 - 1月14日)

  1. 报名成功后,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。
  2. 第一阶段(11月20日-1月13日)每天提供2次的评测机会,提交后将进行实时评测;排行榜每小时更新,按照评测指标得分从高到低排序;(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,不做最终排名计算)
  3. 第二阶段(1月14日19:00-22:0022:40)系统将在1月14日19:00提供测试数据,参赛队伍需要再次下载数据文件,本阶段提供2次评测机会,提交截止时间1月14日22:0022:40,赛程期间系统20:00和22:00进行2次评测和排名。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。
  4. 正式赛结束后,以榜单成绩作为比赛算法提交成绩依照,TOP15团队提交代码审核,规范详见“代码规范”文档(所提交的代码能够在天池实验室(PAI-DSW探索者版)环境下复现最优成绩),代码提交截止时间1月18日12:00。组委会将审核并剔除只靠人工标注而没有算法贡献或无法通过天池实验室复现最优成绩的队伍,获奖空缺名额后补。

一、赛题数据

赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

数据表

train_click_log.csv:训练集用户点击日志

testA_click_log.csv:测试集用户点击日志

articles.csv:新闻文章信息数据表

articles_emb.csv:新闻文章embedding向量表示

sample_submit.csv:提交样例文件

字段表

Field Description
user_id 用户id
click_article_id 点击文章id
click_timestamp 点击时间戳
click_environment 点击环境
click_deviceGroup 点击设备组
click_os 点击操作系统
click_country 点击城市
click_region 点击地区
click_referrer_type 点击来源类型
article_id 文章id,与click_article_id相对应
category_id 文章类型id
created_at_ts 文章创建时间戳
words_count 文章字数
emb_1,emb_2,…,emb_249 文章embedding向量表示

结果提交

提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。其格式如下:

user_id,article_1,article_2,article_3,article_4,article_5

其中user_id为用户idarticle_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id依概率从高到低排序,例如:

user_id,article_1,article_2,article_3,article_4  ,article_5

   200000,1  ,2,3,4,5
   
   200001,1  ,2,3,4,5
   
   200002,1  ,2,3,4,5
   
   200003,1,2,3,4,5

评分方式

MRR(Mean Reciprocal Rank):首先对选手提交的表格中的每个用户计算用户得分

score(user)=\sum_{k=1}^5\frac{s(user,k)}{k}

其中, 如果选手对该user的预测结果predict k命中该user的最后一条购买数据则s(user,k)=1; 否则s(user,k)=0 。而选手得分为所有这些score(user)的平均值。

推荐系统相关竞赛通用流程

赛题理解、数据分析、特征工程、召回模块、排序模块等通用流程进行学习,提供方式notebook或视频。
以上学习资料详见:论坛

Baseline方案

基本方案介绍,提供方式notebook或视频。以上学习资料详见:论坛

零基础入门推荐系统 - 新闻推荐_学习赛_天池大赛-阿里云天池

GitHub - bluemapleman/NewsRecommendSystem: 个性化新闻推荐系统,A news recommendation system involving collaborative filtering,content-based recommendation and hot news recommendation, can be adapted easily to be put into use in other circumstances.

你可能感兴趣的:(AI/比赛,人工智能,数据挖掘)