阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation

摘要:

近年来,图卷积网络(GCN)已成为一种新型的基于协同过滤(CF)的推荐系统(RS)的新技术。通过在用户-项目二部图上进行嵌入传播来学习信息丰富的用户和项目表示方式,然后根据这些表示方式为用户提供个性化的项目建议。尽管现有算法有效,但在嵌入过程中忽略了用户-项目对之间宝贵的交互特征。当预测用户对不同项目的偏好时,他们仍然以相同的方式聚合用户树,而不强调用户社区中的目标相关信息。这种统一的聚合方案很容易导致用户和项目表示的次优,在一定程度上限制了模型的表达性。

在这项工作中,我们通过在每个用户-项对之间建立双边交互式指导,并提出一个名为IA-GCN(交互式GCN的缩写)的新模型来解决这个问题。具体来说,当我们从其邻域学习用户表示时,我们给那些类似于目标项目的邻居分配更高的关注权重。相应地,在学习项目表示时,我们更多关注那些与目标用户相似的邻居。这导致了交互式和可解释的特征,通过每个图形卷积操作有效地提取特定于目标的信息。我们的模型建立在LightGCN之上,这是一种最先进的GCN F模型,可以以端到端方式与各种基于GCN的CF架构相结合。在三个基准数据集上进行的大量实验证明了IA-GCN的有效性和鲁棒性。

通过在每个用户-项对之间建立双边交互式指导

  • 在学习用户(user)表示的时候,注重在 item 树中给跟目标用户相似的邻居分配更多的权重。
  • 在学习项目(item)表示时,更关注在 user 树中与目标 item 相似的邻居。

1介绍

一般来说,CF的偏好得分是通过融合(内积[22]、MLP[17]、欧氏距离[18]等)来预测的。两个嵌入向量,分别代表目标用户和目标项目的潜在特征的嵌入向量。因此,如何构建表达性嵌入来捕获令人满意的用户/项目肖像对预测性能至关重要。早期的CF算法,如矩阵分解(MF),大多直接将用户/项目ID投影到嵌入向量[22]中。后来,许多人通过将的历史交互作为她在嵌入计算[26,56]中预先存在的特征,来增强目标用户的嵌入。近年来,基于图卷积神经网络(GCN)的CF算法出现了许多新兴的研究,通过利用用户和项目之间的高跳连接性,进一步提高了/的嵌入向量的表达能力。代表性作品包括[54],NGCF[46],Light-GCN[15]和[47,49]。具体来说,CF的数据结构很自然地出现在一个二部图中:用户和项目作为节点,交互作为边。节点/的阶特征总结了/的-hop邻域内的信息,通过堆叠图卷积层进行聚合,形成一个树状结构,即用户/项目树。我们在图1a中说明了这种常用的大树结构。

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第1张图片

尽管经过了广泛的研究,但现有的基于GCN的CF算法大多存在一个关键的限制,在CF层的最终融合之前,用户树和项目树之间没有交互。这是因为它们的聚合主要继承自传统的GCNs,例如GraphSage[13],它最初是为了在每个节点上的分类而提出的。然而,推荐任务与分类有根本的不同:吸引的不是和的购买力和的评级,而是它们的互动特征,如在选择和的部分特征时的考虑,决定了偏好。由于这种次优的晚期融合体系结构,现有的算法错过了宝贵的交互特征,因此在偏好预测中无效。

为了解决这一限制,我们提出了交互式GCN,这是一种专门设计的,用来建立基于GCN的CF中的用户-项目交互模型的新架构。与传统的将和的一般特征独立提取的gcn不同,IA-GCN在这两棵树之间建立了显式的引导链接(图1b)。对于用户树中的聚合,我们将高重要性分配给类似于目标项的邻居。相应地,在项目树中,我们强调与目标用户相似的邻居。这个交互式指导使GCN能够通过每个信息专注于目标特定的信息卷积,从而捕获/的高阶特征中的交互特征,最终有助于偏好预测的显著提高。综上所述,我们做出了以下贡献:

•据我们所知,我们是第一个在传统的基于GCN的CF算法中强调晚期融合对聚合和的高阶特征的负面影响。

•我们提出了IA-GCN,一种专门针对CF的新型GCN架构。其关键思想是通过在两棵树之间构建交互式引导,提取和的交互式特征,通过每个卷积操作强调目标特定的信息。

•我们通过在常用的基准数据集上进行的大量实验,验证了IA-GCN的有效性。IAGCN的性能优于各种最先进的基于GCN的CF算法,验证了捕获交互式特性的重要性。

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第2张图片

2相关工作

我们的工作与三个活跃的研究领域密切相关:协同过滤、推荐的GCN和注意机制。

2.1协作过滤

协作过滤(CF)假设具有相似偏好的用户也可能对类似的项目[39]感兴趣。CF的一个常见范例是通过潜在向量来表示用户和项目,然后试图通过建模历史交互来获得交互的概率。矩阵分解将用户和项目嵌入到嵌入中,并直接使用内积进行预测[22]。后续的工作主要涉及两个方向:更好的嵌入或优化交互功能

[4,15,16,21,45,54]不是只使用用户和项目的id,有些工作是专注于通过合并广泛的辅助信息和历史用户行为来扩展项目或用户的表示。具体来说,aSDEA[10]添加了项目属性来帮助学习项目表示,而ACF[4]和NAIS[16]则总结了历史项目的用户嵌入,并将其视为用户特性。此外,考虑到构建交互式数据作为二部图的有效性和神经图网络的成功,最近的工作,如NGCF[46]、PinSage[54]和LightGCN[15],在一个图中重组个人历史,并从多跳邻居中提取有用的信息来细化嵌入。

另一方面,深度协作过滤模型强调了用户-项目交互如何建模的重要性。在MF算法中广泛使用的内积被神经网络[17,18,35]中的非线性函数所取代。LRML[41]还尝试使用欧几里德距离作为一个度量标准,来确定用户和项目之间是否存在交互作用。

2.2推荐GCN

近年来,图卷积网络在社交网络分析[33]、生物医学网络[29,36,44,50,53]和推荐系统[15,46,47,54],用于处理非欧几里得数据。早期的工作基于图傅里叶变换[3,9]定义谱域的图卷积。最近的研究,包括GCN[20]、GraphSAGE[13]和GAT[42],根据邻域聚合方案重新定义了空间域的图卷积,在节点分类[20]、链接预测[24]、图表示学习[55]等广泛的任务中表现出了优越的性能。

在本文中,我们集中研究了基于cf的推荐场景中的GCN模型[5,15,46,47,49,54],其中用户-项目的交互行为被表述为一个二部图。有影响力的工作包括PinSAGE[54],它利用有效的随机游动进行图卷积来降低网络推荐系统的计算复杂度,以及NGCF[46],它通过在图上传播用户和项目嵌入来显式地编码高级协作信号。后来,Wang等人[47]开发了DGCF来建模不同的用户-项目交互,从而产生意图感知的表示。最近,研究人员一直致力于简化推荐任务[5,15,30]的GCN设计。受SGCN[48]的启发,He等人[15]提出了LightGCN,该方法通过去除特征变换和非线性激活来设计一个光图卷积,以实现训练的有效性和泛化能力。为了进一步减少负担,UltraGCN[30]设计了一个约束损失来近似于无限层的消息传递。最近,在对比学习能力的激励下,Wu等人[49]提出了一种新的学习方案SGL,该方案将节点自我识别作为自我监督任务,以实现适度程度的偏差,增强对噪声交互的鲁棒性。

尽管做了这些努力,现有的作品在预测用户对项目的偏好时,从自己的社区独立学习用户和项目表示。也就是说,用户在嵌入过程中不知道目标项,反之亦然。我们的工作解决了这个问题,并专门将交互式指导集成到图卷积中,从而导致可解释的交互式特性,并实现了显著的性能提高。

2.3注意机制

注意机制是试图关注相关事物而忽略其他事物,在深度学习中广泛应用于深度学习。Bahdanau等人为机器翻译[1]提出了第一个注意模型,它基于一个简单而优雅的思想,即不仅要考虑所有的输入词,而且要考虑它们的相对重要性。随后成功的应用领域包括图像字幕[51]、隐含推理[37]、语音识别[8]等等。

自我注意首先在[7]中引入,已经被用于一系列任务,包括阅读理解、文本隐含和抽象摘要[25,31,32],主要是微调给定上下文的自己的表征。此外,注意力也可能依赖于外部信息,这意味着它可以克服使用自身信息的限制。这种注意机制被称为相互注意,通常涉及特定于任务的信息,然后能够关注与最终任务[27,27,34,34]最相关的部分。

注意机制也可以提高GCNs的学习能力。例如,当执行邻域聚合来细化节点的嵌入时,GAT[42]根据自我注意策略为其相邻的邻域分配不同的重要性。后续的工作,如GIN[23]和KGAT[45],利用了GAT的想法,并成功地将其应用到推荐领域。以往的方法是计算两个连接节点之间的边缘注意权值,而magna[43]则通过将多跳相邻上下文纳入注意计算中来捕获远程节点交互。

然而,目前的图注意方法一般应用于具有信息丰富节点的图结构,不适用于每个节点只有ID特征的用户项二部图。此外,注意系数的计算仅局限于中心节点与其相邻节点之间的相关性,即自我注意机制。因此,我们设计了一种新颖的、简洁的基于注意的GCN推荐架构,它包含了外部目标信息来计算更有目的性和适当的注意系数.

3交互式图卷积神经网络

在本节中,我们首先回顾第3.1节中建议的背景和问题设置。然后,我们在第3.2节中描述了传统的基于GCN的推荐算法的架构。为了解决现有GCN算法的弱点,我们在第3.3节中提出了交互式GCN。最后,在第3.4节中提供了IA-GCN与现有模型的详细比较。表1总结了这些符号。

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第3张图片

 3.1前期准备工作

考虑一个典型的推荐系统,分别使用U={1,...,}和I={1,...,}作为用户集和项目集。目标是学习一个函数:U×I→R,该函数预测目标用户-项目对(,)的偏好分数ˆ,。直观地说,一个准确的预测器应该给一个具有积极互动(点击、购买等)的积极用户-项目对(、+)分配一个更高的分数,而不是对没有积极交互作用的负对(,−)。

根据贝叶斯个性化排序(BPR)[35],将目标函数定义为:

其中D是一个三联体的数据集,三联体(,+,−)表示用户更喜欢项目+而不是项目−,是所有模型参数上的正则化项,是s型函数。

在广泛使用的协同过滤(CF)设置中,偏好得分ˆ、被预测为目标用户和目标项嵌入的内积,即:

其中,e0,e0∈R是和的嵌入。总之,我们有+嵌入向量,它将被随机初始化,并与其他模型参数一起端到端训练。

虽然CF简单而有效,但它通常不足以为用户和项目捕获令人满意的嵌入。关键原因是CF只利用了用户项交互中的一阶连接,没有高阶连接,而这种连接只在目标函数[46]中明确建模。

3.2图卷积框架

为了解决CF的局限性,基于GCN的推荐算法[45,46]通过图形卷积显式地利用了用户和项目之间的高阶连通性。通常,用户项交互表示为一个无向二部图G=(V,E),用户和项目作为图节点,即V=U∪我和−交互边,即E⊆U×我然后在G的帮助下,高阶连接明确建模。具体来说,偏好得分是不仅仅从1)来预测的。,自己的嵌入物e0,e0,用于传统的CF(Eq。(2)),但同时还有2)。它们的高阶特征,记为e,e,∈{1,...,},其中阶特征e/e总结了图g上/的-hop邻域内的信息,预测得分计算为:

其中,∗和∗表示卷积层后的高阶特征。受ResNet[14]的启发,许多研究表明,使用跳过连接来组合GCN层可以有效地解决过平滑问题。在一个常见的范例中,使用组合操作符从历史表示[0,1,···,]、[0,1,···,],然后从等式中收集信息(3)可以扩展为:

其中,是和的0到顺序特征的任意组合。

在文献中,/的高阶特征通常由两个树状结构计算,它们基于/,由堆叠图卷积层组成,如图1a所示。具体来说,对于两棵树中的任何父节点,它的子集N(采样自)G中的直接邻居,父的+1阶特征是从图卷积操作中子节点的阶特征聚合而来的,

其中是一个结合子特性的聚合函数。该卷积操作沿着树从下到上迭代使用,最终的偏好预测得到e∗和e∗。

虽然在推荐中常用,但这种树结构最初是从GCN继承的,用于在每个节点上进行分类。这就是为什么这两棵树之间没有明确的相互作用。每棵树都会独立地提取/的一般肖像,直到最终的融合,即CF层。然而,这种结构实际上并不适合推荐因为推荐大大不同于节点分类:它不是/的一般肖像,但他们的交互特性,例如,考虑在选择和的部分特征吸引,真的有助于偏好预测。传统的基于GCN的推荐算法由于缺乏最优的后期融合架构,通常无法对目标用户和目标项目之间的交互进行建模,因此在偏好预测中无效。

3.3交互式GCN以供推荐

我们通过提出一种新的架构,交互式GCN(IA-GCN)来解决传统的基于GCN的建议中的后期融合问题,它是专门为用户-项目交互模型而设计的。我们首先解释了我们的关键理念,“互动”。

3.3.1什么是“互动”?在传统的模型中(Eq。3),每个用户/项目的高阶特征独立于目标−对中相应的项目/用户的高阶特征。因此,它们总是固定的和普遍的。换句话说,对于任何两个不同的项目=,用于预测ˆ,和ˆ,ˆ,是相同的。对于任何用户,=,e∗预测ˆ,和ˆ,也是相同的。

考虑一个玩具的例子,目标用户购买了智能手机的和一条裙子,分别表示为1和2。因此,有两个子元素,它的特性被聚合为e+1=(e1,e2)。问题是如何设计聚合器,或者更具体地说,如何分配e1和e2的相对重要性,这样e∗才能高度表达对的兴趣。自然,相似的项目共享更多吸引用户的潜在因素,因此类似于目标的孩子对偏好预测的贡献更大。如果是一款类似于智能手机1的笔记本电脑,那么e1就值得拥有更高的重要性。如果是一件裙子,我们应该更重视e2。不幸的是,传统gcn中的聚合器缺乏来自其他树的基本指导,因此无法通过每个卷积操作保存宝贵的目标特定信息。这个缺点不仅降低了玩具示例中(第1级用户树)中的聚合器,而且还始终影响到两个树中的所有其他聚合器。

为了解决这一限制,IA-GCN在这两棵树之间构建了显式的交互:目标用户引导项目树中的聚合,即强调类似于的子项。

目标项指导用户树中的聚合,即将高重要性分配给类似于的子项。

这种交互式指导使IA-GCN能够通过每个图的卷积来专注于特定于目标的信息。因此,目标/所产生的高阶特征并不是固定的,而是基于其在目标用户-项目对中对应的/:∗|和∗|。

一个关键的问题是如何衡量一个子节点的聚合和它的向导之间的相似性,即另一个树的根

3.3.2互动指南。

考虑一个图卷积操作,该操作在节点的指导下,通过聚合父节点的子∀∈N的特征来计算父节点的高阶特征。在使用交互式指导策略时,有以下两种情况:

•=和∈N,即目标项指导用户树中的邻域聚合。如图1b所示,1○。

•=和∈N,即目标用户在项目树中的邻域聚合。如图1b所示,2○

。具体来说,聚合到时的重要性是根据与指南的相似性/相关性来分配的。我们列出了这个策略的几个考虑因素。

首先,和的高阶特征,虽然可用,但可能由于邻域传播而有噪声。因此,我们建议仅从和的0阶特征来计算重要性得分

其次,和的嵌入向量的一个简单的内积对于计算注意系数应该是可行的。当和为同质节点时,它作为相似度度量。当它们是异质性的时,它就量化了用户-项目对之间的相关性。

第三,更多的孩子,即较大的|N|,并不一定表明更重要。因此,聚合高阶特征的规模不应该随着|N|而增加。因此,我们将控制在∀∈N上的所有相似性的总规模。

最后,我们将一个在指导下的儿童对的重要性表述为:

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第4张图片

其中,为一个温度参数。等式中的软度层(6)确保了I∈N,|=1,这包括第三个考虑因素。

请注意,IA-GCN中的这种聚集的重要性与GCN中现有的注意机制有根本上的不同,例如,GAT[42]。我们的,|依赖于与的相似性,即来自另一个树的交互式指导。而在现有的关注中,,依赖于与的相似性。由于所使用的知识仍然仅限于自己的单一树,现有的算法不能提取交互式特征。

3.3.3交互卷积。在前面的章节中,我们将重点关注如何在聚合器中分配重要性,现在我们将深入研究等式中聚合器的设计(5).

在文献中,早期的GCN工作大多属于重管道:线性变换、加权和池和非线性激活[17]。虽然最近的研究,[5,48]强调了这样一个事实,即一个轻的聚合器,例如,加权和池,通常会达到最先进的性能。我们以LightGCN为例。当将∈N聚合到时,他们使用

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第5张图片

其中,它们的聚合权值是基于和自己的树中的信息的简单规范化。

由于IA-GCN的重点是在这两棵树之间引入交互式指导,因此我们建议遵循简单且已被证明有效的加权和池聚合器。使用所提出的交互式指导,我们的卷积运算被表述为,

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第6张图片

其中,,|是交互式权重,定义在等式中(6)

请注意,IA-GCN是一个易于插件的模块,理论上可以应用于任何基于GCN的推荐方法。通过增加我们的交互权重,许多现有的算法将受益于学习到的用户-项目交互知识。

3.3.4层组合与模型预测。在介绍了消息传递的方法之后,我们从Eq.(8)中定义的原始嵌入0 by操作符开始聚合+1阶特征。然后是在等式中提到的一个组合操作符(4)用于从顺序层中收集有影响的信息。Such的操作可重新表述如下:

具体来说,我们工作中的可以总结为: 

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第7张图片

表示从阶特征中收集信息的比率/重要性。不仅可以根据专家知识调整超参数,还可以使用与图卷积层共同学习的变量。就像等式一样(2),考虑到交互式指导,我们的预测如下: 

 

它从早期阶段就对目标用户和目标项目之间的交互进行建模,通过每个卷积操作保存宝贵的目标特定信息,并在最后对交互概率进行预测。

3.4模型分析

在本小节中,我们将讨论IA-GCN与现有模型之间的异同之处,并为我们的设计的合理性提供更深层次的见解。

3.4.1与LightGCN的关系。对于LightGCN[15]和IA-GCN,整个可训练参数均为0阶嵌入向量{e0,e0|∈U,∈I}和层组合系数{0,...,}.也就是说,IA-GCN的模型尺寸与LightGCN完全相同。在模型设计方面,唯一的主要区别是聚合相邻节点特征的方法(。第3.3.3节)。LightGCN使用父和子的静态度来实现规范化嵌入(。Eq.(7)),而IA-GCN根据子与另一个树的引导的相似性/亲缘关系计算动态注意得分(。Eq.(8)).在公平的实验设置下,IA-GCN在推荐精度(证据来自表4)和收敛率(证据来自图2)方面始终优于LightGCN。此外,我们的模型也有更好的可解释性,因为目标信息是明确地编码在注意系数。

3.4.2与GAT的关系。虽然GAT[42]的核心思想与IA-GCN一致,例如,在图卷积中学习节点特征的加权聚合,但其实现与我们的有根本的不同。GAT具有特征转换和非线性激活操作,这使得它在基于cf的推荐中性能不佳。因此,我们将不会在实验部分展示其结果。此外,GAT遵循自我注意机制,而IA-GCN遵循相互注意机制(。第3.3.2节)。此外,IA-GCN具有更强的表达能力。如果我们总共有用户和项目,并且希望对它们的交互进行预测,那么GAT只独立地产生用户表示和项目表示。尽管如此,IA-GCN考虑了每个用户-项目组合,并使用有限的模型参数生成用户表示和项目表示(。第3.4.1节)。

3.4.3与GIN的关系。为了预测赞助搜索中的点击率,GIN[23]为用户实时行为中的每个商品构建了一个共现商品树。最初,它利用GAT[42]的思想来聚合这些树,产生高级的商品表示,然后根据其与目标商品的相似性,对用户行为序列中的商品进行加权。虽然GIN也使用外部指南进行社区聚合,但它与我们的IA-GCN有以下两个方面:1)在GIN中,目标商品只为用户图中的一阶邻居提供指导,而IA-GCN从所有层引导邻居聚合;2)GIN中的指导从目标项目到用户侧是单方面的,而IA-GCN可以构建双边交互指导(。图1)。

4实验

我们首先比较了我们提出的IA-GCN与LightGCN和其他各种最先进的基于GCN的CF算法。随后,我们提出了烧蚀研究的实验,以说明层组合的影响和合理指导的重要性,以证明IA-GCN的设计选择的合理性。

4.11数据集描述。

如表2所示,我们使用了三个公开的数据集:由NGCF[46]发布的Gowalla、Yelp2018和亚马逊的Amazon-Book。为了保持比较的公平性,我们密切跟踪并使用与LightGCN[15]相同的数据分割。在训练阶段,每个观察到的用户-项目交互都被视为一个积极的实例,而我们使用负抽样来随机抽样一个未观察到的项目,并将其与用户作为一个负的实例配对。

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第8张图片

 4.1.2比较方法。

我们将IA-GCN与最先进的方法进行比较,并研究指导如何影响性能,因此我们根据注意机制覆盖范围对它们进行分组三组:无注意(GC-MC、DisenGCN、LightGCN和DGCF)、注意内或其变体(NGCF、NGCFℎ和SA-GCN)。

•GC-MC[2]:这将矩阵完成任务定义为一个链接预测任务,并在二部用户-项目交互图上提出了一个自动编码器框架,其中编码器获得节点的表示,解码器重构评级链接。

•DisenGCN[28]:这利用了邻居路由机制,它可以动态地解开图边背后的潜在因素,并学习解开的节点表示。

LightGCN[15]:这通过去除特征转换和非线性激活,只保持邻域聚合来简化GCNs的协同过滤,这是最重要的组成部分。

•DGCF[47]:这强调了在不同的连接项目上区分用户意图的重要性,并在更细粒度的层次上解开潜在的用户意图。

•NGCF[17]:该方法在用户-项目交互图上采用了三层GCN层,旨在通过相同的传播规则来细化用户和项目表示:特征转换、邻域聚合和非线性激活。此外,它可以被视为自注意机制的一种变体,因为存在一个表示交互项,使消息的传播依赖于子节点与其父节点之间的亲和力。

•NGCFℎ:这遵循了NGCF的所有设置,特别是在传播嵌入时,连接节点之间的内积。但是,它去掉了特征变换矩阵和非线性激活函数,以保持与LightGCN的一致。

SG-GCN:这遵循了我们提出的IAGCN算法的所有设置,除了在Eq.(6)中提到的指南的选择。SGGCN(自引导GCN的缩写)不是使用交互引导,而是由自己的根引导聚合树。

我们进一步比较了IA-GCN与几种方法,包括无注意方法(LightGCN)和注意内方法或其变体(NGCF、NGCFℎ和SA-GCN),以验证我们对指导的合理选择。详细的分析结果详见章节4.4.2.

4.1.3评估指标。

为了评估top-N的推荐值,选择Recall@20和NDCG@20是因为它在基于GCN的CF模型[15,17]中的受欢迎程度。在测试时,我们将测试集中的用户交互的项目视为积极的项目,并评估如何交互积极的项目在所有其他未互动的项目中排名第一。平均结果w.r.t.报告了所有用户的指标。

4.1.4超参数设置。与LightGCN相同,所有模型的嵌入大小均固定为64,嵌入参数采用Xavier[11]方法初始化。我们使用Adam[19]优化器和默认的1024的小批量大小来优化IA-GCN(在亚马逊-Book上,我们调整了2048的小批量大小,它遵循LightGCN的设置)。学习速率搜索范围在{5−4,5.5−4,6−4,……,鉴于我们的验证差距和收敛速度。我们选择1−4作为2正则化系数,早期停止和验证策略与LightGCN相同。为了与其他方法进行公平的比较,我们采用相同的层组合设置和设置(Eq。(4))一致为1/(+1)。

4.2与LightGCN的性能比较

我们通过在表3中详尽地报告了不同层的结果,将LightGCN与我们的IA-GCN进行了比较。与本表中显示示其他算法的比较将在第4.4.2节中进行讨论。我们的讨论内容如下:

当层数从1到3层时,IA-GCN在三个基准数据集上始终优于LightGCN,这证明了我们提出的方法的有效性。我们将这种性能增益归因于以下原因:1)LightGCN容易受到用户-项目交互噪声的影响,而IA-GCN中的注意机制可以帮助减轻潜在噪声交互带来的负面影响,提高表示学习;2)LightGCN存在用户和项目特征的后期融合,而IA-GCN通过在两者之间的交互链接完全整合了用户和项目树(。图1b);3)IA-GCN在面对不同的目标项目/用户时,以不同的方式聚合用户/项目树,而LightGCN以统一的方式进行邻域聚合,从而丢失特定于目标的信息。

在大多数情况下,将模型深度从1增加到3可以提高性能,但之后达到平台。这一观察结果与LightGCN的发现相一致。

LightGCN在亚马逊图书上报告的最高召回率@20是0.0411,而我们的IA-GCN将该指标增加了15.2%。Gowalla和Yelp2018的相对改善不如亚马逊-book那么显著,这可能是由于数据集的自然指标造成的:密度如表2所示。CF算法存在数据稀疏性问题[12],即用户对项目的偏好数据通常太少,太不可靠,无法反映用户的真实偏好。来自另一棵树的监督信号有助于IA-GCN以偏好进行邻域传播,从而在一定程度上缓解了稀疏性问题。

我们进一步绘制了训练度量和测试度量在同一图(图2)上,以说明我们的IAGCN的有效性和效率。我们省略了性能w.r.t.NDCG也有类似的趋势。观察结果和分析结果如下:

在图2所示的整个训练过程中,IA-GCN始终获得了较高的训练评价指标,说明我们的模型对训练数据的分类效果优于LightGCN。令人印象深刻的是,在前100个时代时,IA-GCN在训练数据上实现了0.075的召回率@20,而LightGCN在第1000个时代时达到了相同的评估指标。

•一个强大的泛化能力使IA-GCN能够从训练优势转移到更好的测试性能。从在测试数据上评估的指标来看,IA-GCN显著地超过了LightGCN。从趋势推断,在如此小的学习速率(5.5−5或6.5−5)下,IAGCN已经在1000个时代内收敛,但LightGCN的收敛仍然需要时间。

4.3与技术现状的性能比较

IA-GCN与其他竞争方法之间的总体比较如表4所示,其中报告了每种方法在3个卷积层内获得的最佳性能。我们在这里省略了NGCFℎ和SG-GCN的性能(。4.4.2,以便进行更多的分析。请注意,IA-GCN可以通过添加可忽略的参数来调整层的重要性(。第4.4.1节),而这里我们只使用香草层组合(=1/(+1))。在大多数情况下,我们的IA-GCN比所有其他方法取得了显著的改进,证明了其合理性和有效性。

GC-MC在三个数据集上表现较差,这可能表明,当仅使用一阶连接时,它通常不足以为用户和项捕获令人满意的嵌入。与DisenGCN和NGCF相比,LightGCN在三个数据集上的表现明显更好,这与他们的主张一致。原因可能是LightGCN论文中的陈述:过多的特征转换和非线性激活可能会对最终的性能有害。两者都解释了我们的IA-GCN的合理设计,因为我们使用了高阶邻居和光传播模块,而不需要复杂的非线性特征变换。

DGCF是所有情况下最强的基线,验证了其解纠缠模块和传播机制的高有效性。它们的目的都是从所有高阶特征中净化和提取有用的信息,这也是IA-GCN中应用的注意机制的自然优点。尽管IA-GCN的性能与Gowalla上的DGCF相当,但IA-GCN在其他两个数据集上超过了它,尤其是在亚马逊图书上的15%。这一现象进一步验证了两棵树之间的注意机制减轻了数据的稀疏性问题。

由于IA-GCN的改进主要归因于项目和用户树的早期融合,以及降低不相关项目的注意机制,它的想法很可能与一些最先进的模型相结合。理论上,它可以作为一个简单插件的插件模块应用于任何基于GCN的推荐方法。例如,在DGCF之上,可以考虑来自另一个树的指导,并解开潜在的用户意图。

4.4IA-GCN的研究

在本节中,我们分析了层组合的影响。为了证明在第3.3.2节中对交互式指南的选择,我们将IA-GCN与几种基于自我注意的GCN算法进行了比较。

图层组合的4.4.1影响。

我们进一步进行了实验,以探索一种更好的层组合方法。如第3.3.4节所述,“ℎ”表示根据在模型训练中学习到的重要性进行的层嵌入的加权和,而“”表示普通的组合方法:=1/(+1)。值得注意的是,可训练参数只是“”中的原始嵌入e0,而是“ℎ”中的+1的额外层组合参数。

图3给出了三个数据集的详细比较,以显示层组合系数的影响。我们发现:除了两层Gowalla,“ℎ”在所有其他情况下都有改进。这揭示了多阶特征对最终性能的不同贡献。•在Amazon-Book数据集上,我们发现,当使用“”层组合时,当层数从1增加到2时,其性能迅速下降,而通过对从不同层聚集的特征进行重新加权,2层召回@20从0.0450增加到0.0477。这意味着合理的层权值可以帮助我们更有效地从高阶邻居中提取信息。

阅读:IA-GCN: Interactive Graph Convolutional Network forRecommendation_第9张图片

 指南选择的4.4.2影响。如表3和图2所示,IA-GCN中引入的相互注意机制可以提高模型的表达性,加速收敛速度。这些好处是由用户-项目对之间的交互式指导链接带来的,如图1b所示。使用自注意方法或其变体进行的补充实验(详见第4.1.2节)进一步证明了引入外部指导的必要性。我们有以下观察意见:

显然,父节点和子节点之间的编码亲和关系是有害的。NGCF和NGCFℎ使用内积建模这种亲和关系,随后表现低于LightGCN。从表3中可以注意到,在Yelp2018和Amazon-Book上,随着层数的增加,NGCFℎ的性能会下降。这意味着这个亲和项会对表征学习产生负面影响,并充当噪声。因此,当我们增加模型深度并合并更多的邻居时,我们实际上会引入更多的噪声,从而降低模型训练的质量。•SG-GCN与IA-GCN只有一个区别。它在自己的根而不是目标根的指导下聚合用户/项树。SG-GCN在2层或3层Yelp2018和1层亚马逊Book上超过LightGCN,但在其他方面失败,而IA-GCN在所有实验中都比LightGCN显著,如表3所示。

在这项工作中,我们提出了一种新的图注意框架IAGCN来解决一个长期被忽视的问题,即协同过滤中用户和项目特征的次优后期融合。在预测用户对项目的偏好时,用户树和相应的项目树将在彼此的引导下从下到上聚合,提取交互特征,强调特定目标的信息。我们进行了各种实验来证明我们的模型在推荐有效性、泛化能力和训练收敛性方面的优越性。

我们的工作代表了对动态或交互式图卷积进行推荐的初步尝试,并开辟了一个新的研究方向。在未来的工作中,我们将遵循注意机制的方向,并利用各种注意机制,例如将一个单一的指南扩展到多种指南。此外,我们将合并更多的侧边信息,如项目属性[10],以帮助测量注意力。

你可能感兴趣的:(人工智能,深度学习,推荐算法,数据挖掘)