以下内容纯属个人见解,欢迎大家交流。
发布于2021 WSDM
1 motivation
1.1 问题
现有的CRS用户偏好模型通常将在线反馈信息作为独立的特征或训练实例,忽略了属性级和项目级反馈信号之间的关系。这种关系可以用于更精确地确定触发拒绝某个项目的原因(例如某些特定属性),从而更细粒度地利用反馈信息。
在多轮CRS中利用这些在线反馈信息并不是微不足道的。EAR框架采用因子分解机(FM)作为推荐组件,将属性级反馈编码为输入特征,项目级反馈作为在线更新的训练实例。FM模型最初是在静态推荐设置下开发的,忽略了多轮CRS中收集的细粒度属性反馈和粗粒度项目级反馈之间的关系。物品级别的反馈很难使用,因为被拒绝的原因可能是不同的,这表明虽然RC通常会基于首选属性做出建议,但用户仍然可能拒绝这些物品。例如,对于消极的项目级别反馈“拒绝红色iPhone”,被拒绝的原因可能是属性“红色”,或者属性“苹果品牌”,或者两者兼有。直接使用反馈作为训练实例会降低与该物品相关的所有属性的亲和力得分。但是,如果用户表示“喜欢红色”(即“喜欢红色”)。(积极属性级反馈),系统可以推断“Apple brand”可能是不受欢迎的属性。因此,利用项目级反馈和属性级反馈之间的关系可以更准确地估计用户偏好,有助于提高多轮CRS的性能。
1.2 解决方法
针对上述问题,本文提出了一种针对多轮CRS的偏好估计模型——反馈导向偏好适应网络(Feedback-guided preference Adaptation Network, FPAN)。在FPAN中,根据在线属性级反馈,设计了两个门禁模块,分别适应原始用户嵌入和项目级反馈。门控模块利用细粒度的属性级反馈来修正用户嵌入和粗粒度的项目级反馈,通过考虑反馈之间的关系来实现更准确的用户偏好估计。
FPAN首先将用户、项目和属性表示为异构图中的节点,然后应用图神经网络学习节点嵌入。为了获取项目级和属性反馈之间的关系,FPAN设计了一种门控模块,基于确定的正属性来修改被拒绝的项目的嵌入,获得用户当前不喜欢的特征的项目表示。类似地,另一个门控模块被设计用来根据确认的负面属性修改用户嵌入,根据用户当前的偏好特征导出用户表示。这些经过调整的用户项表示和对话中提到的属性的嵌入被进一步聚合,以估计用户对属性和项的偏好。
2 模型介绍
一个多轮CRS会话以用户指定的首选属性开始(步骤1)。在每个回合中,系统从{,}中选择一个动作(步骤2):ask表示系统询问用户是否喜欢给定的属性,用户以二进制反馈回复(步骤3); Recommend表示系统向用户推荐一个商品列表,用户检查该列表中是否包含目标商品(步骤3)。当用户接受建议或整个过程耗时太长时,会话结束(步骤4)。CRS主要由负责偏好估计的推荐组件(RC)和负责用户交互的会话组件(CC)组成
2.1 Offline Representation Learning
将用户-物品-属性建图,共有两类节点<用户,物品>,<物品,属性>。采用GraphSage来学习node embedding
2.2 Online User Preference Adaptation
对于当前会话,用户会有正属性,负属性和负样例。
2.2.1 Adapting item embedding to positive attribute feedback
用户通常会因为与该项相关的部分属性而拒绝推荐的项。直接使用I−中的消极项(例如,作为训练实例)可能会影响所有相关的属性,这不可避免地会损害推荐的性能,因为被拒绝的项与目标项也有一些相同的属性。幸运的是,我们可以通过项目级反馈与属性级反馈之间的关系来缓解上述问题。在之前的“红色iPhone”例子中,如果用户在之前的回合中明确表达了他对“红色”的偏好,那么“苹果品牌”属性可能会引发拒绝。
假设用户和对话历史中提供的积极属性反馈,这些属性的嵌入首先被聚合到一个向量中
对于每一个被拒绝的项目,应用一门控模块以适应其初始嵌入:
从直观上看,门模块根据正属性信号控制被拒绝项嵌入所传播的信息。最后,将经过调整的项嵌入进一步聚合到向量表示项目级的负信号。平均的聚合是使用
2.2.2 Adapting user embedding to negative attribute feedback
在多轮CRS中,用户在当前会话中的反馈只能反映用户当前的意图(即短期偏好)。用户的一般兴趣(即:另一方面,通常是从历史日志数据(即从日志中学习到的嵌入)中派生出来的。对于CRS来说,平衡用户的短期和长期偏好非常重要。
在多轮CRS中,可以利用用户对属性的负反馈来平衡用户的长期和短期偏好。例如,根据用户的历史活动,系统将“红色iPhone”作为他的一般兴趣。然而,如果用户在当前的对话中表示他不喜欢“苹果品牌”的属性,那么一般的兴趣应该调整为“红色手机”。基于观察,我们还提出将(表示为)的普遍兴趣调整为负属性级反馈,仍然基于门控机制。
2.3 Item and Attribute Prediction
我们通过聚合不同类型的反馈信号来得到用户的偏好表示