Reinforced Negative Sampling over Knowledge Graph for Recommendation

Reinforced Negative Sampling over Knowledge Graph for Recommendation

ABSTRACT

合理的处理缺失数据在推荐系统中是的一个根本挑战。 目前的大多数工作都是从未观察到的数据中进行负采样,以提供带有负信号的推荐模型训练 。 然而,现有的负采样策略,无论是静态的还是自适应的,都不足以产生高质量的负样本-这既有助于模型训练,也有助于反映用户真实的需求。
在这项工作中,我们假设项目知识图(KG),它提供了项目和KG实体之间的丰富关系,可以用来推断信息和真实的负样本。
开发了一种新的负采样模型-知识图策略网络(K GPolicy),它作为一种强化学习智能体来探索高质量的负样本。 具体来说,通过进行我们设计的探索操作,它从用户项目正项交互中导航,自适应地接收知识感知的负信号,并最终产生一个负项目训练推荐系统。 我们在装有KGPolicy的矩阵分解模型上进行了测试。

INTRODCTION

推荐系统已广泛应用于实际应用中,以提高用户满意度和参与度。 从历史用户-项目交互中训练推荐模型,正例和负例的用户反馈,被要求以确保模型生成合理的个性化排序[13,23,33]。 然而,大多数互动都是以隐反馈的形式进行的,例如点击和购买,这只提供信号的正反馈。 这就给推荐模型学习带来了根本的挑战—如何从仅有正例数据中提取负例数据-这也被称为一类问题。
由于负面信号潜伏在未观察到的数据中,一个普遍的解决方案是执行负采样,这比将所有未观察到的相互作用视为负例更有效。 现有的负采样策略可分为三种类型:静态采样器、自适应采样器和具有额外行为的增强采样器。然而,每种方法都有一些固有的局限性。
鉴于负采样的基本作用和现有方法的局限性,我们在本工作中将重点放在负采样上,旨在通过引入其他类型的数据来提高其质量.高质量的负采样应该满足两个要求:1)信息性,这意味着目前的模型对它们的评分相对较高,因此将它们更新为负例将会我显著地改变模型参数,2)事实,这意味着它们是真正的负例,即用户以前知道它们(通过系统或其他方式暴露),但没有选择它们.由于自适应采样器可以实现对信息的要求,关键的挑战在于从缺失的数据中发现真实的负例,这些数据本质上缺乏真实性。
在这项工作中,我们假设知识图(KG),它引入了项目和现实世界实体之间的额外关系(来自项目属性或外部知识),可以从未观察到的数据中推断真实的负例。虽然将KG纳入推荐中最近得到了广泛的研究,但这些研究只利用KG建立预测模型,以前的工作没有使用它来增强负采样器。
为此,我们提出了一种新的负采样模型KGPolicy(简称知识图策略网络),该模型采用强化学习(RL)代理来探索KG以发现高质量的负采样。核心是设计的探索操作,它从用户项正例探索,选择两个顺序邻居(例如,一个KG实体和一个项目)访问。 这样的两跳路径可以捕捉到知识感知负例。为了实现这一目标,我们设计了一个邻居注意力模块,该模块指定了以正例用户项对为条件的一跳和两跳邻居的不同重要性,以便自适应地捕获对KG实体的偏好,并产生潜在的项目。 通过递归地进行这种探索,KGPolicy学会为目标正例交互选择潜在的负例。 此外,路径历史作为支持证据,揭示了为什 所选项目被视为负实例。为了证明我们的方法,我们使用了一个简单的线性模型,矩阵分解(MF),作为推荐者,使用KGPolicy训练该模型。
总之,这项工作作出了以下主要贡献:
1) 据我们所知,我们是第一个将知识图纳入负抽样的,目的是选择高质量的负例与正例用户项交互配对。
2) 我们开发了一种用于负采样的强化学习KGPolicy,它有效地学习了用多跳探索路径得到高质量的负例。
3) 我们对三个基准数据集进行了广泛的实验,证明了KGPolicy在抽样有效性和知识条目使用方面的优势。

TASK FORMULATION

我们首先呈现交互数据和知识图,制定我们的任务,并强调多跳路径中的负例。
Interaction Data 设O={(u,i)|u∈u,i}是隐式反馈,其中每个(u,i)对表示用户u和正项i之间的历史交互,u和i分别表示用户和项目的集合。
Knowledge Graph 在最近的研究工作启发下,我们以知识图(KG)的形式组织项目属性或外部知识以及交互数据。 正如先前的努力所显示的,用户项交互数据中的项目可以与KG中的相应实体对齐。
Task Description 建立了用户行为和项目知识,旨在利用这些丰富的信息来指导采样器的学习。 我们的目标是知识感知的负采样,如下:
在这里插入图片描述
fs(.) 是用ΘS参数化的采样器。 它产生对未观察项目的经验分布,以产生知识感知的负采样项目j。 此外,正例i的排他性KG实体{p|(i,p)∈G,(j,p) Negative Signals in Multi-hop Paths 为此,我们旨在探索KG的结构信息,特别是节点之间的高阶连通性,以发现合适的负例。 对于正例(u,i)交互,我们可以遍历根节点i的路径,终止于未观察到的项j,并将多跳连接视为i和j之间的关系。 然而,很明显,不同的路径在发现负例的过程中有不同的置信度,并不是所有的路径都有助于提取负例信号。

1)informative 由于两个Itemsi和j共享相同的KG实体e‘,它们可能具有相似的表示,它们的成对比较可能在推荐参数上提供较大的梯度。2)reflective of user real tastes 因为如果e‘是u感兴趣的一个重要因素,j可能已经通过其他方式(例如搜索、营销或广告系统)暴露于u。 然而,u选择了i而不是j,这表明u可能真的不那么感兴趣对j。 因此,(u,j)被认为是一个更好的负例用于训练推荐模型。 此外,如果j是以较低的置信度为负例估计的,我们可以通过扩展来继续探索这样的原子路径。 例如,从i→e→j‘→e’→j中可以发现j’项,并且具有较高的负置信度。

METHODOLOGY

该框架由一个推荐器和一个采样器组成。 然后,详细阐述了采样器,KGPolicy,其目标是学习探索到KG上的负例。进行探索的操作分为三个步骤。
1) 图形学习模块,它预先准备节点的高质量表示。
2) 邻居注意力机制模块 它利用两个注意模型进行路径查找,并确定下一个访问哪个合适的节点。
3)neighbor pruning module 这减少了搜索空间,以解决上述模块中的计算过载。 反复进行这样的探索,KGPolicy最终能够产生一个潜在的负例项目来配对正例目标。
最后,KGPolicy和推荐被共同训练以提供推荐。

Recommender
为了证明我们的知识感知采样器的有效性,我们使用了一个线性和简单的模型,矩阵分解(MF),作为推荐。 更具体地说,MF将用户和项目的ID信息参数化为嵌入,并使用用户和项目嵌入的内积作为预测函数来估计用户u选择项目i的可能性。
在这里插入图片描述
其中,yui
是(u,i)相互作用的预测分数。
在这里插入图片描述
我们使用成对的BPR损失作为目标函数来优化和学习ΘR的参数。
在这里插入图片描述
在这里插入图片描述
负样本的信息性可以测量为梯度大小。 这反映了成对偏好(u,i,j)对改善ΘR的贡献。因此, 低质量的负例,被分配到比i更小的分数,使梯度幅度接近0,因此对优化贡献很小。 所以,和正例相比,一个信息丰富的负面信息有望接近正例的预测分数。

Knowledge-aware Sampler
我们以KG作为取样器的环境。 这使我们能够利用项目和KG实体之间的丰富关系,特别是高阶连通性,以探索更合适的负例。 基本思想是,以目标用户为条件,从正例的项目开始,学会在KG结构上探索,然后沿着探索的路径产生可能的负例。 在大规模的KGs中,无法列举所有未观察到的项目的可能路径,因为它需要劳动密集型的特征工程,存储这些路径和消耗时间提取有用的信号,需要内存。 因此,我们设计了一种智能采样器作为强化学习(R L),对KG进行自动探索。

引入强化学习和马尔科夫决策过程的知识

Sampling as Reinforcement Learning
我们将采样作为马尔可夫决策过程(MDP)M={S,A,P,R}, 其中A={a}是从探索路径操作导出的一组动作(action),S={s}是探索过程中抽象路径的一组状态(state),P是状态转移概率矩阵,R是奖励作用(reward)。 我们介绍了RL的KG环境(相当于environment)的关键要素如下:
Exploration Operation
为了获得知识图谱中的原子路径。 我们定义了一种新的探索操作,包括两个连续的边。比如说:
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第1张图片
在这里插入图片描述
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第2张图片
State
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第3张图片
Action
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第4张图片
State Transition Dynamics
在这里插入图片描述
在这里插入图片描述
Reward
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第5张图片
Prediction Reward:
在这里插入图片描述
Similarity Reward
在这里插入图片描述
考虑到这两个因素,我们设计了一个奖励函数:
在这里插入图片描述
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第6张图片
Objective Function
为了学习一个随机策略π来优化采样器参数ΘS,我们最大化了预期的累积折扣奖励如下:
在这里插入图片描述
其中γ是衰减因子;π的期望是使用户项对(u,i,j)的可能性尽可能接近可能的相互作用。

Knowledge Graph Policy Network.
我们引入一个网络来生成策略π,以及对每一项行动(action)的置信度。 首先,我们描述了一个图形学习模块,它为每个节点生成向量表示,然后在表示上构建一个邻居注意模块,以选择一个合适的邻居作探索访问,它与邻居剪枝模块耦合,以减少探索空间。
Graph Learning Module
在最近的图神经网络(GNNs)的启发下,我们使用G上的图GraphSage和用户项二部图O,目的是嵌入用户、项目和KG实体的向量表示。
eg. 在第l个图卷积层中,以节点e为起始节点接收从其邻居传播的信息以更新其向量表示形式,如:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第7张图片
Neighbor Attention Module
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第8张图片
在这里插入图片描述
在这里插入图片描述
Attentive KG Neighbors
Reinforced Negative Sampling over Knowledge Graph for Recommendation_第9张图片
eg.在这里插入图片描述
在这里插入图片描述
因为注意力评分取决于关系空间中eh和et之间的距离,为了避免有的距离太大而引起的权重干扰,所以要进行归一化处理。公式如下:
在这里插入图片描述
Attention Item Neighbors.
在这里插入图片描述
在这里插入图片描述
因此,我们可以生成一个策略π的每个探索操作的负例概率。
Neighbor Pruning Module
虽然这种对KG的探索将搜索空间从整个项目集缩小到了正例项目的多跳邻居,但一些节点的邻居规模(例如,流行项目或通用KGconc) 类似于戏剧的体裁)很容易达到数千甚至更大。 进一步阻碍了探索性能。 因此,我们从DNS中得到了启示,并提出了一种能够有效地保持有前途的邻居的剪枝策略。

你可能感兴趣的:(Reinforced Negative Sampling over Knowledge Graph for Recommendation)