TianChi新闻推荐01:协同过滤itemCF

1、介绍

https://tianchi.aliyun.com/competition/entrance/531842/information

赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,

  • 包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。
  • 从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

数据集

  1. train_click_log.csv:训练集用户点击日志
  2. testA_click_log.csv:测试集用户点击日志
  3. articles.csv:新闻文章信息数据表
  4. articles_emb.csv:新闻文章embedding向量表示
  5. sample_submit.csv:提交样例文件
Field Description
user_id 用户id
click_article_id 点击文章id
click_timestamp 点击时间戳
click_environment 点击环境
click_deviceGroup 点击设备组
click_os 点击操作系统
click_country 点击城市
click_region 点击地区
click_referrer_type 点击来源类型
article_id 文章id,与click_article_id相对应
category_id 文章类型id
created_at_ts 文章创建时间戳
words_count 文章字数
emb_1,emb_2,…,emb_249 文章embedding向量表示

 

2、

task01:Baseline

http://datawhale.club/t/topic/196

协同过滤:http://datawhale.club/t/topic/41

内容勘误:http://datawhale.club/t/topic/302

task02:数据分析

http://datawhale.club/t/topic/197

 

你可能感兴趣的:(数据竞赛,推荐系统)