由于网络在各种数据挖掘应用中得到了广泛的应用,网络嵌入技术近年来备受关注。我们试图打破现有模型中预设元路径和非全局节点学习的限制,提出了一个简单而有效的异构网络嵌入学习框架,该框架通过自监督的方式直接对原始的多类型节点和关系进行编码。更具体地说,我们首先从每个关系类型下的邻居属性中学习全局节点的基于关系的嵌入,并利用一个注意的融合模块来组合它们。然后,利用节点与其相邻图之间的强相关性,设计了多跳对比来优化区域结构信息,其中我们通过多跳消息传递来考虑多个关系,而不是预先设置元路径。最后,我们在各种下游任务上评估了我们提出的方法,如节点聚类、节点分类和两类节点之间的链接预测。实验结果表明,我们提出的方法在这些任务上明显优于最先进的基线。
图表示学习[7]着重于将图结构数据嵌入到低维表示中。学习到的向量将是原始网络的有效表示,可用于链路预测、节点分类和节点聚类等各种数据挖掘任务[1]。为了使学习更容易适应无标记数据,自监督图表示学习被提出,并成为一种不引入任何监督模块的学习节点嵌入的趋势图学习范式。该技术已成功应用于许多领域,如社交网络挖掘和推荐系统。
从没有任何标签的图结构数据中学习有意义的节点表示是一个长期的挑战。基于人工神经网络,提出了自监督学习(SSL)[2,3],通过自动生成某种监督信号来实现对未标记数据的学习。早期经典的自监督作品通过随机游走[18]将图拓扑和节点链接作为向量嵌入。随着深度学习的迅速发展,从数据本身自动获取监督信号的图神经网络[23]成为自监督节点表示学习的一种有效方法。由于其简单性,同构网络一直是gnn的首选研究对象。然而,由多种节点和/或链接组成的异构网络作为现实世界中最普遍的图结构数据形式,近年来受到了越来越多的关注。图1(a)是一个具有多类型节点和链接的异构学术网络示例。
尽管已经提出了许多具有异构网络的性能良好的自监督模型,但其中大多数都采用了一种通用的策略,即通过元路径将原始的异构网络拆分为多个同构网络[9,16],如图1(b)所示。这种策略通过消除原始数据的异构性,使数据能够直接输入gnn,但仍然面临两个主要限制。首先,基于元路径的方法需要元路径来分离网络[16]。这些元路径通常是手动预先定义的,并根据来自模型的最终结果不断调整,以获得更好的性能[4,5,20,28]。这种操作不仅需要丰富的经验,而且在调整过程中会产生大量的额外成本。其次,基于元路径的方法将一个具有多类型节点和关系的异构图简化为几个具有单一类型节点和关系的同构图。在每个分割图中,只保留某一类型的对象,而排除其他类型的对象。在这种情况下,这些方法的结果不适用于某些下游任务,例如,两种类型节点之间的链接预测,因为每次训练只能获得一种特定类型的节点嵌入。
针对上述问题,我们提出了一种简单而有效的基于关系子图对比的自监督表示学习框架,该框架对异构图中的所有类型的节点和边进行编码。具体来说,如图1©所示,我们首先为每个节点提取基于关系的邻居图,并从其单跳邻居属性中学习基于关系的嵌入。在为每个节点获得一组基于关系的嵌入后,我们利用一个注意的融合模块自动组合它们。所有这些组成了一个用于生成嵌入的编码层。为了使嵌入更加精确,我们通过堆叠编码层来捕获节点的多跳邻居,以尽可能大程度地学习邻居属性。不同于以往工作中使用复杂的数据增强来实现互信息最大化,我们设计了一个简单的多跳邻域对比,利用节点及其多跳邻域图之间的强相关性来优化区域结构信息。此外,为了加强属性图中嵌入与原始属性之间的内在联系,我们将它们的互信息最大化作为内在对比信号。我们的主要贡献总结如下
节点表示学习的目的是学习图结构数据中节点的低维表示。
传统的嵌入方法侧重于网络拓扑,通过随机游走[6,18]或元路径[4,5]生成节点序列,并在序列上使用跳过格模型[15]学习节点嵌入。然而,一个主要问题是它们只保留了网络结构,而忽略了其他各种属性,如节点属性。在这种情况下,提出了图神经网络(GNN)[23],从图的结构和节点特征学习网络表示。GNN的核心思想是通过神经网络聚合邻居的特征,学习一种新的低维表示。现有的基于GNN的方法在许多应用中显示出优越性。例如,GCN[11,21]已经成功地利用结构信息和节点特征来学习节点表示。GAT[22]和HAN[24]在图学习中引入注意机制,自动学习节点的重要性。然而,这些方法[12,26]在训练步骤中需要标签信息,因此,它们无法处理在现实问题中大量存在的无标签图。
自监督学习(SSL)的目的是通过使用未标记的数据自动生成训练样本来学习表示。在GNN研究中,这是一种很有前途的方法,可以克服缺乏监督的困境。互信息最大化是实现无监督学习的有效途径。DGI[23]是通过最大化节点表示和对应图级摘要之间的互信息来训练节点嵌入的最具代表性的工作之一。图互信息[17]试图通过最大化潜在节点表示与节点单跳邻居的原始特征之间的互信息来学习节点嵌入。GRACE[29]是一个在节点级最大化协议的框架。此外,近年来关于图对比学习的研究不仅集中在同质图上,也尝试在异质图上进行学习。HDGI[19]、DMGI[16]、HDMI[9]和HeCo[25]等方法探索了图对比学习,在异构网络上表现出良好的性能。然而,大多数异构方法都是基于元路径的。他们倾向于通过元路径将异构图分割成几个同构子图,只保留某些类型的对象,并排除其他非目标对象。在这种情况下,这些方法不能输出异构图中所有类型节点的表示,因此,它们的结果不适合某些下游任务,如两种类型节点之间的链接预测。此外,元路径的选择需要丰富的经验,需要根据最终的评估结果进行调整,这会产生大量额外的人力资源成本。
在本节中,我们形式化了自监督嵌入学习的问题,并介绍了初步的概念。
我们首先描述了一个基本编码层,它包括针对每种节点类型的特定于类型的基于关系的编码器。然后,我们演示了如何通过堆叠这一基本编码层来实现多跳邻居属性的学习,其中当前编码层将前一层的节点嵌入作为输入,并为下一层生成新的嵌入。最后阐述了多跳对比和内在对比的构造
为了更清楚地解释多跳消息传递,我们展示了图3来说明SR-RSC如何学习多跳邻居属性。由于通过聚合节点单跳邻居的特征来直接学习节点嵌入并不能充分表征不同的图结构,我们尝试堆叠多个编码层来驱动多跳消息传递。
我们在四个现实数据集上评估我们提出的模型,即两个引用网络数据集DBLP1[27]和DBLP-L1[24],一个业务数据集Yelp2[27]和一个电影数据集IMDB3[24]。节点特征是由每个数据集中对应关键字的词袋表示构造的。对于这四个数据集,我们在给定标签的特定节点上进行节点分类和节点聚类,并在特定链接上进行链接预测。任务的细节将推迟到各自的实验。这些异构网络数据的详细描述如表2所示。
SR-RSC与一些最先进的算法进行比较,包括两种传统的均匀方法(DeepWalk[18]和node2vec[6]),三种基于GNN的均匀方法(DGI [23], GAE[10]和VGAE[10]),一种传统的异构方法(Metapath2vec[4]),四种基于GNN的异构方法(HeGAN [8], HDMI [9], DMGI [16], HDGI[19])和HeCo[25]。此外,还将GAT[22]和HAN[24]两种半监督方法与我们的模型进行了比较。在实践中,我们通过探索异构随机行走路径在异构网络上执行DeepWalk和node2vec。对于其他齐次方法,我们在所有基于元路径的齐次图上进行了测试,并报告了最佳结果。对于异构方法,我们参考它们的实验,选择几个合适的元路径为它们提取同构网络。我们用MP2V表示Metapath2vec,用DMGIa表示DMGI的基于注意的变体,用HeGANd和HeGANa分别表示HeGAN中的鉴别器和生成器的结果。在半监督任务中比较了GAT、HAN和DMGI的监督变体。
我们将K-means算法应用到节点聚类任务中,并利用归一化互信息(NMI)和调整兰德指数(ARI)对节点标签的聚类质量进行评估。由于K-means的性能受质心初始化的影响,我们重复该过程5次,并报告平均结果。
根据表3,我们可以观察到:
SR-RSC优于基于元路径的学习基线,并始终优于同质网络嵌入基线,这说明SR-RSC在嵌入学习上更有效,SR-RSC学习到的嵌入更具辨别能力。
异构网络嵌入方法通常优于同构方法,特别是基于GNN的算法。
基于元路径的方法,特别是基于细心元路径的方法,对元路径的质量要求很高,而元路径的选择需要丰富的经验。
我们使用逻辑回归分类器并使用Macro-F1和Micro-F1作为度量来执行多类节点分类任务。我们用不同的种子重复这个过程5次,并报告平均性能。如表4所示,SR-RSC在受监督任务上始终优于所有基线。由于分类是一个监督任务,所有的方法都是通过监督学习获得的,所以分类任务中所有方法的结果都不像聚类任务中那样有很大的差距。
对于链接预测任务,我们预测了DBLP和DBLP- l上的“作者-论文”链接、Yelp上的“用户-企业”链接和IMDB上的“电影导演”链接。我们从原始网络中随机隐藏20%这样的链接作为正实例,并随机抽样给定形式的断开节点对作为负实例。我们采用内积来进行链接预测,按照现实中数据分析的习惯,当节点之间的内积大于0.5时,我们预测节点之间是“链接”的,否则为“不链接”。在本例中,我们使用精度和Macro-F1作为指标来比较SR-RSC和可以在全局节点上工作的基线的性能。表5证明SR-RSC一贯且显著优于基线,特别是在DBLP和DBLP- l数据集上。
为了评估SR-RSC的效率,我们报告了SR-RSC的运行时间和节点聚类结果,以及图4中所有数据集上的所有异构网络嵌入基线。我们可以看到,与基线相比,SR-RSC在所有数据集上都取得了令人鼓舞的结果。具体来说,HDGI、DMGI、HDMI和HeCo作为四种基于元路径的方法,也表现出非常有竞争力的效率,但本文给出的结果不包括图的预处理时间(如基于元路径的图分割),这些方法只学习了部分节点的嵌入。HeGAN是这里唯一类似SR-RSC的方法,两者都直接在原始异构图上开始训练,能够学习所有类型节点的嵌入,而如图4所示,HeGAN在所有四个数据集上的训练时间更多,随着数据集规模的增加,HeGAN的训练速度比SR-RSC慢约10-30倍。综上所述,SR-RSC在更短的时间内获得了更好的下游效果,说明SR-RSC在异构网络嵌入学习方面具有良好的效率和有效性。
我们对下游任务进行了消融研究,以调查SR-RSC中组件的影响。首先,我们分别测试(8)中的多跳对比和(9)中的内在对比,以展示它们在生成节点表示中的重要性。然后我们研究了损失函数是如何影响性能的,方法是用一个二进制交叉熵(BCE)函数替换(6)和(7)中的边界三重函数。最后,我们尝试用嵌入掩蔽代替嵌入变换生成负样本来检验模型的表现。表6总结了实验结果,我们可以看到:•SR-RSC在所有三个下游任务上的表现通常都更好。
•与内在对比相比,多跳对比在SR-RSC中起着更重要的作用。
•由于邻居图中的信息重叠,BCE函数的工作效果不如边缘三重函数,除非是在密集的网络数据上,例如Yelp数据。
•当使用嵌入掩码作为负样本时,模型的表现取决于比例掩码。在SR-RSC中,由于难以找到理想的比例掩码,我们使用嵌入变换作为负样本。
我们提出了一种新的自监督框架(SR-RSC)用于属性异构网络学习,打破了现有图嵌入研究中预设元路径和非全局节点学习的限制。我们精心设计了一个基于关系的编码层,通过堆叠层传递多跳消息来学习全局节点的表示。在优化过程中,多跳对比学习和内在对比联合使用,训练更精确的节点嵌入。不同于以往的研究依赖元路径,将异构网络划分为多个同构网络,该方法避免了复杂的图预处理,只关注网络结构和节点属性,生成异构网络中所有类型节点的表示形式。大量的实验证明了SR-RSC与最先进的基线相比的有效性。