推荐系统数据集

MovieLens

广泛流行的基准测试数据集. 详见参考[1].
通过 movielens.org 网站收集到的电影评分数据. 包含 user 对 movie 的评分及时间戳. 含有 user 及 movie 的side-info.
根据 年份和数据集大小的不同, 有具体的多个版本. 其中一个如下.

  • ML-1M
    1 million ratings from 6000 users on 4000 movies. Released 2/2003.

RecSys Challenge 2015

见参考[2].
RecSys Challenge 2015.
一家电商网站的点击和购买日志.

  • train set
    Session ID, Timestamp ,Item ID ,Category ,Price , Quantity (how many of this item were bought)
  • test set
    Session ID,Timestamp,Item ID,Category
  • Solution file
    即本竞赛要提交的预测结果. 有两部分:
  1. Session ID
  2. Comma separated list of Item IDs that have been bought in this session

手淘-猜你喜欢-天池-408

见参考[3].
来自手机淘宝app, 猜你喜欢导购场景下的点击和购买日志.
13个用户特征, 5个商品特征, 4个交叉特征, 一个上下文特征.

CIKM Cup 2016

见参考[4].
CIKM Cup 2016 Track 2: Personalized E-Commerce Search Challenge.
数据来自一个电商网站.
数据包括: 浏览日志和搜索日志和商品图,
数据量: 1,235K.
item特征: 价格, 类目.

参考

  1. MovieLens
  2. RecSys Challenge 2015
  3. 手淘-猜你喜欢, 天池-408
  4. CIKM Cup 2016

你可能感兴趣的:(推荐系统)