#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems

#论文题目:A Fully-observed Dataset for Recommender Systems(基于全观测数据集的推荐系统)
#论文地址:https://arxiv.org/pdf/2202.10842.pdf
#论文发表网站:https://arxiv.org/abs/2202.10842
#论文源码开源地址:https://github.com/xiwenchao/fully_observed_demo
#论文所属单位:快手 & 中科大

一、概述

该文章是快手公司与中科大合作产出的资源型论文,即发布了一个几乎全是观测值的稠密数据集KuaiRec,该数据集包含了1411个用户对3327个短视频的交互行为,稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)。“稠密数据集”意味着用户-物品矩阵中几乎没有缺失值,即每个用户都看了每个视频且留下了反馈。
下图为KuaiRec数据集的结构:分为两部分Small matrix和Big matrix部分。两者互斥。
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第1张图片
该数据集可用于离线的A/B测试,以及可用于无偏推荐、交互式/对话推荐或者是基于强化学习推荐等方向。

数据集特征

如上所述,KuaiRec 包含数以百万计的user-item交互矩阵,包括big matrix和small matrix。还附带了两种辅助信息:item侧的类目以及用户侧的社交关系。
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第2张图片
其中Small matrix稠密度为99.6%可用于可信的评测,而Big matrix的稠密度为13.4%可用于推荐模型的训练。请注意,小矩阵的密度是99.6%而不是100%,因为有些用户屏蔽了某些作者的视频。大矩阵是部分观测数据集,用于评估使用。
下载后的数据集包含以下文件:
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第3张图片
上述data文档的解释说明:
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第4张图片
由于该数据几乎包含用户对所有物品的交互行为,因此不用去处理缺失值的问题(不能简单的把缺失值看做是负样本或者是missing-not-at-random问题)。另外,通过从Small matrix中抽取部分用户-商品交互(Partially dataset)作为测试集来进行与全量观测数据(Fully-observed dataset)的实验对比,来评估数据稠密度(Data density)与偏置(Bias)的影响。通过在KuaiRec数据集上的实验结果提供了两个关键的发现,这些发现正好说明了全量观测数据集的重要性:

  1. 偏差极大地影响了不同模型在评价中的表现和排名。
  2. 不同的数据稠密度仍然会导致结果不一致。

由于该数据集的原始版本是显式数据,因此为了转换为隐式反馈数据用于推荐排序等研究,该论文建议将视频观看长度大于视频本身时长的2倍为正样本,即用户至少观看了2次完整的视频才认为是正样本。
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第5张图片
随后,该论文以对话推荐系统场景(CRs)为例,来验证不同的算法在KuaiRec数据集上的性能表现。下面为两个数据集(MTG、STG)通过改变数据密度和暴露策略后,采用八种方法的性能表现图。后续还有多个对比试验,最终目的是为了说明此数据集的优势,就不再一一赘述了。
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第6张图片
#Paper Reading# KuaiRec: A Fully-observed Dataset for Recommender Systems_第7张图片

三、结论

论文作者希望可以把该数据集作为一个测试平台来支持更多的研究工作。首先,可以使用Partially observed data来构建可信的用户模拟器。虽然在实验中验证了在矩阵填充任务上的帮助有限,但是否可以使用部分观测数据正确模拟完全观测数据仍然是一个悬而未决的问题。我们充分观察到的数据可以进一步支持这种探索。第二,Small matrix版本的数据集可以作为推荐系统中多个研究方向的基准数据集,例如推荐系统中的偏差、交互式推荐和评估。至少通过发布这些全量观察到的数据,希望鼓励更多的科研人员努力收集具有更丰富属性的更完全的数据集,以此来促进推荐系统社区的发展。

作者有话说

此篇论文的最终思想是从多角度证明KuaiRec数据集的优势。数据集作者已经开源,但是如此作者所说,现阶段稠密度高的数据集矩阵并不多见,若以此作为论文的标准数据集,会不会不具有代表性?期待此数据集能成为标准数据集。本人初步涉猎此领域,仅此代表我个人观点,若有不同观点欢迎在评论区评论,不喜勿喷,谢谢!

你可能感兴趣的:(推荐算法,注意力机制,图嵌入,机器学习,推荐算法,深度学习)