本篇是WSDM 2022中推荐系统论文阅读的完结篇!
WSDM 2022 推荐系统论文阅读(中)
WSDM 2022 推荐系统论文阅读(上)
声明:本论文阅读笔记主要是对论文摘要的概括,评论仅代表个人的阅读观点,欢迎大家在评论区讨论!
公司/学校:汉阳大学(韩国)
摘要:之前基于KG的推荐方法通常是没有考虑到KG中边上的情感因素(或者用户的偏好信息),比如说一个用户和物品相连,那么这个用户究竟是喜欢物品而点击还是因为刚需而点击。为此,本文通过分析用户打分和评价来构建带有情感的知识图谱SAKG,然后再在该KG上使用强化学习进行推理和推荐。最后,通过给出情感相关的评论作为文字解释。
评论:这两年在知识图谱上应用强化学习的工作逐渐多了起来,值得关注。我认为目前如何有效利用图中的边信息,依然是一个尚未解决的问题(当然不知道图研究中是否有)
技术分类:知识图谱、可解释推荐、强化学习推荐
代码:无
公司/学校:ebay
摘要:在序列推荐中,物品通常也是会有多个且变化的属性的。而之前大多数的会话推荐方法很少对如何将属性信息很好地用在序列推荐中进行研究。本文在基于transformer的序列推荐模型上,提出了一种扩展的注意力机制Attention2D,该注意力机制可以用于学习序列数据中的物品属性信息。
评论:在序列化的推荐任务重,如何更好地利用物品属性信息是一个值得研究的问题。但是好奇这篇文章为什么没有和去年AAAI华为诺亚的那篇NOVA进行比较,这两个文章出发点一样,技术路线也很相似。
技术分类:序列推荐、side information
代码:https://github.com/urielsinger/Trans2D
公司/学校:华中科技大学、美团、微软亚研院
摘要:现在通常使用上下文老虎机(Context Bandit,CB)算法来解决用户兴趣发现的问题。但是,传统的CB算法只能应用于小的、采样过的物品集合(百级别)。因此,这些算法大多用在重排序或者首页推荐等物品集较小的场景。本文则提出了两个简单有效的分层CB算法来在整个物品空间上发现用户兴趣。具体来说,先是利用聚类算法构建了一个物品树,然后提出了一个分层CB算法来在这个物品树上探索用户兴趣。
评论:用户兴趣发现这个方向读过的论文比较少,主要是这个方向是偏向于推荐系统长期收益的,目前并未受到重视。我理解的这篇文章的主要创新点是用树的结构来降低了CB算法的时间复杂度,使其可以应用于整个物品空间上。
技术分类:Context Bandit、用户兴趣发现
代码:无
公司/学校:山东大学、谷歌、格拉斯哥大学
摘要:将强化学习用于会话推荐或者是序列推荐是一个很自然的想法,但是面临着几个问题:off-policy训练的问题、动作空间过大问题和缺乏足够奖励信号的问题。现有的许多工作结合RL和自监督学习来解决这些问题,但是还面临着缺乏负奖励导致的Q-value偏向于正值,以及Q-value极度依赖于某个特定时间点序列的问题。因此,本文提出了一个负采样策略来训练RL部分,然后还结合了有监督的序列学习。
评论:我目前对RL这块儿基本不了解,但是大概能明白文章所提的负样本问题。可能是不置信的负样本会对基于RL的方法产生更大的影响。但确实按理来说RL用在序列化推荐任务上应该是非常理所当然的,而现在很少有相关的论文,感觉是一个很有意思的方向。
技术分类:序列推荐、强化学习
代码:无
公司/学校:Sungkyunkwan University、Seoul National University、Yonsei University
摘要:现有的大部分会话推荐方法多关注一个会话内的物品转移关系(如SR-GNN那种对一个会话建一张图),很少关注会话间的物品关系(如GCE-GNN用多个会话建图)。此外计算效率也是推荐系统的一个关注点。本文旨在设计一个既准确又高效的会话推荐方法。本文利用带重启的随机游走方法来捕获物品间的高阶语义信息。
评论:其实可以将本文看做是GCE-GNN方法的改进,不仅考虑了全局的物品间关系,还考虑到了计算效率问题(GCE-GNN运行确实很慢)。在会话推荐方面,考虑效率的文章确实是第一次见。除此之外,今年会话推荐的论文越来越倾向于去捕获inter-session的信息了。
技术分类:会话推荐、图推荐
代码:https://github.com/jin530/SWalk
公司/学校:南洋理工大学
摘要:搜集了近些年顶会论文用的数据集,然后分析其特性来找其相同点和不同点,最后研究了一下数据集的选择是否会对论文的观察和结论产生影响。
评论:这种探索性的论文看起来还是蛮有意思的,对于以后做实验提供了指导性的意见。但我大概看了下数据集,感知觉主要还是针对协同过滤类的方法来做的。
技术分类:探索性论文、数据集
代码:https://github.com/almightyGOSU/TheDatasetsDilemma
公司/学校:罗格斯大学
摘要:当前的研究将公平性推荐视为一个有约束的优化问题,其中推荐目标即为优化目标,公平性的程度为约束条件。这些公平性推荐的方法在很大程度上会导致推荐性能的下降,因为推荐和公平性本身就是一对trade-off。因此,很容易能想到利用帕累托优化方法来使得推荐的性能和公平性达到协同的最优。本文提出了一个多目标强化学习来进行优化。
评论:我目前主要在研究bias,对fairness研究得较少。但是我发现这个领域最大的区别在于bias的研究有很多还是强调性能的,而fairness大多是要损失性能的。那么问题来了,既然性能和公平性是一对trade-off,那么究竟怎么评价一个公平推荐算法的好坏(尤其是off-line评测下)。
技术分类:公平性推荐、强化学习、帕累托优化
代码:无
公司/学校:宾夕法尼亚大学
摘要:本文研究的是通过无偏的因果评价手段来优化排序指标。作者观察到有些物品不论曝光与否,用户都是会去点击或者是购买的,那么其实这些物品是没有因果效应的。而评价一个排序模型的好坏,重要在于估计推荐的因果效应,即将具有较大因果效应的物品排序在前面。因此,本文提出了一种无偏的排序评价方法来消除混杂偏差,然后基于信息瓶颈的方法来量化IPS的调整。最后,提出了一种无偏学习算法来优化因果指标。
评论:这篇文章是从LTR角度来做推荐消偏的,属于那种偏向于数学推导的方法。现在的推荐消偏方法大多还是利用do-calculus来消除后门通路,而本文这种基于causal inference的方法是不多的,而我对这种方法其实是更感兴趣的。
技术分类:偏差、LTR、信息瓶颈
代码:无