零基础入门推荐系统——task01:赛题理解+Baseline

项目背景

结合之前推荐系统理论,以新闻APP中的新闻推荐为背景,10天参加新闻推荐场景下用户行为预测实战,入门推荐系统,了解推荐系统基本流程及一些业务背景,解决实际问题。

赛题概况

1. 解决问题

以新闻APP中的新闻推荐为背景,根据用户历史浏览点击新闻文章中的日志信息预测用户最后一次点击的新闻文章。

2. 数据介绍

数据来自某新闻APP平台用户交互数据,包含30w用户,近300w次点击,共有36万多篇不同的新闻文章,并且每篇文章有对应的向量表示。数据集分为:

训练集:20w用户点击日志数据

测试集:5w用户点击日志数据

验证集:5w用户点击日志数据

隔离集(结果提交):每个用户依据概率推荐前5篇文章

3. 模型评价指标

对于用户1:

评价指标公式:

  其中,当推荐结果中的第k篇文章命中时,其余为0.

4. 学习问题定义

原始问题是预测用户最后一次点击的新闻文章,很明显若是从36w篇文章中预测用户最后点击的文章,可归为多分类问题。但是这么大的分类器和悬殊的比例,直接做多分类是不可取的,那么其中一个方法是预测某个用户对于某一篇文章会进行点击的概率(不通过传统分类模型实现)。

Baseline运行

后续。。。


后记:emm这几天实在太忙,先粗略过一下,后面回来再搞搞~~~

你可能感兴趣的:(零基础入门推荐系统——task01:赛题理解+Baseline)