推荐系统研究常用数据库

推荐系统学术研究常用的数据集包括:

  1. MovieLens,MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据;大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。
  2. EachMovie,HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放。之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的。这个数据集有72 916个用户对1 628部电影进行的2 811 983次评分。早期大量的协同过滤的研究工作都是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
  3. BookCrossing,这个数据集是网上的Book-Crossing图书社区的278 858个用户对271 379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
  4. Jester Joke,Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73 496个用户对100个笑话作的410万次评分。评分范围是−10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
  5. Netflix,这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize[47]),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480 189个匿名用户对大约17 770部电影作的大约10亿次评分。
  6. Usenet Newsgroups,这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD 2007上的论文[49]。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
  7. UCI知识库,UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本,被用于推荐系统的性能测试数据。
推荐系统研究常用数据库_第1张图片
一个完整的推荐系统由3个部分组成:收集用户信息的行为记录模块,分析用户喜好的模型分析模块和推荐算法模块.行为记录模块负责记录用户的喜好行为,例如问答、评分、购买、下载、浏览等.问答和打分的信息相对好收集,然而有的用户不愿意向系统提供这些信息,那么就需要通过其他 方式对用户的行为进行分析,例如购买、下载、浏 览等行为.通过这些用户的行为记录分析用户的潜 在喜好产品和喜欢程度.这就是 模型分析模块 要完 成的工作.模型分析模块的功能能够对用户的行为 记录进行分析,建立合适的模型来描述用户的喜好 信息.最后是 推荐算法模块 ,利用后台的推荐算
法,实时地从产品集合中筛选出用户感兴趣的产品进行推荐.其中,推荐算法模块是推荐系统中最为核心的部分.

你可能感兴趣的:(推荐系统研究常用数据库)