推荐系统常用的公开数据集

日常整理一些推荐系统相关的公开数据集,数据来源于Github,Stack Overflow,文章博客,kaggle等,供推荐系统相关的研究者使用。

1. MovieLens
其中MovieLens 1M 数据集分为三个文件,users.dat,movies,datratings.dat分别对应用户数据,电影数据和评分数据。
地址:http://files.grouplens.org/datasets/movielens/

2. Book-Crossing
Book-Crossings是由Cai-Nicolas Ziegler根据http://bookcrossing.com的数据编写的图书评分数据集。 它包含90000个用户的270000本书的110万个评分。评分范围从1到10,还包括隐性评分。Book-Crossings数据集是最不密集的数据集之一,也是具有明确评分的最不密集的数据集
地址:http://www2.informatik.uni-freiburg.de/~cziegler/BX/

3. Last.fm
Last.fm提供音乐推荐的数据集。 对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数。
地址:http://grouplens.org/datasets/hetrec-2011/

4. Amazon Music
该数据集包含亚马逊的产品评论和元数据,包括1996年5月至2014年7月的1.428亿条评论。
地址:http://jmcauley.ucsd.edu/data/amazon/

5. Yahoo Music
数据集的大小为423 MB,音乐界对不同音乐艺术家的偏好。该数据集包含了雅虎提供的超过一千万的音乐艺术家评级。
地址:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

6. Milion Song Dataset
地址:https://labrosa.ee.columbia.edu/millionsong/

7. Jester
73421用户100个笑话中超过410万个连续评分(-10.00到+10.00):收集于1999年4月至2003年5月。
地址:http://eigentaste.berkeley.edu/dataset/

8. Yahoo Movies
地址:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

9. Retailrocket
该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。
地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

10. Netflix Prize
该包含了1999.12.31-2005.12.31期间匿名客户提供的超过一亿部电影平级。这个数据集大约给出了480189个用户和17770部电影评级。该数据集由training set(训练集)、probe set(探测集)和qualifying set(评估集)组成。
地址:http://www.lifecrunch.biz/archives/207

11. Anime
此数据集包含来自12294动画, 73516用户的用户偏好数据信息。每个用户都可以将动画添加到他们的完整列表中并给它一个分级,这个数据集是这些分级的汇编。
地址:https://www.kaggle.com/CooperUnion/anime-recommendations-database

12. Epinions
用户trust关系、用户对item的打分信息、评论信息。
地址:http://www.trustlet.org/epinions.html

13. Julian McAuley
该数据集比较全包含:数据集包含以下功能:用户/物品交互,星级,时间戳,产品评论,社交网络,物品与物品的关系,价格、品牌和类别信息等
地址:https://cseweb.ucsd.edu/~jmcauley/datasets.html

14. Airbnb
新用户的民宿预定预测数据集。
地址:http://dataju.cn/Dataju/web/datasetInstanceDetail/354

15. Chicago Entree
该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。
地址:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

16. OpenStreetMap
OpenStreetMap是一个协作的地图项目,类似于维基百科。 像维基百科一样,OpenStreetMap的数据由用户提供,整个编辑历史的完整转储也是可用的。 数据集中的对象包括道路,建筑物,兴趣点,以及您可能在地图上找到的任何其他内容。 这些对象由键值对标识,因此可以从中创建一个基本的内容向量。 然而,键值对是自由的,所以选择正确的设置是一个挑战。 一些键值对由编辑软件(例如“highway =住宅”)进行标准化和相同的使用,但通常它们可以是用户决定进入的任何内容 - 例如“FixMe !! = Exact location unknown”。
地址:http://planet.openstreetmap.org/planet/full-history/

17. Scholarly Paper
地址:https://www.comp.nus.edu.sg/~sugiyama/SchPaperRecData.html

你可能感兴趣的:(推荐系统,数据集)