论文链接:A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources
论文作者:北京邮电大学王啸、石川等
【注】异构图表示学习综述——韩家炜组
异构图(HGs)又称异构信息网络,在现实世界中无处不在;因此,HG嵌入的目的是在低维空间学习表示,同时保留下游任务的异构结构和语义(如节点/图分类、节点聚类、链接预测),近年来受到了相当大的关注。本文就异构图嵌入方法和技巧的研究进展进行综述。我们首先介绍了HG方法进行了详细的介绍,并进一步分析了其优缺点;同时,我们也首次探索了不同类型HG嵌入方法在现实工业环境中的转换性和适用性。此外,我们进一步介绍了几个广泛部署的系统,这些系统已经证明了HG嵌入技术在解决具有更广泛影响的现实应用问题方面的成功。为了促进该领域未来的研究和应用,我们还总结了开源代码、现有的图形学习平台和基准数据集。最后,探讨了HG嵌入存在的问题和挑战,并展望了该领域未来的研究方向。
Heteroheterogeneous graphs (HGs)[1]可以构成不同类型的实体(即节点)和关系,也被称为异构信息网络,在现实世界中无处不在,从书目网络、社交网络到推荐系统。例如,如图1(a)所示,一个书目网络(即学术网络)可以用一个HG表示,它由四种类型的节点(作者、论文、地点、术语)和三种类型的边(作者-写论文、论文含术语、会议-发表论文)组成;这些基本关系可以进一步派生为HG上更复杂的语义(例如,author-write-paper- containing -item)。众所周知,HG是一个强大的模型,能够在现实世界的数据中包含丰富的语义和结构信息。因此,HG数据的研究在数据挖掘和机器学习方面得到了极大的发展,其中很多已经成功应用于现实世界系统,如推荐[2]、[3]、文本分析[4]、[5]、网络安全[6]、[7]等。
传统上,为了学习HG嵌入,提出了矩阵(如邻接矩阵)的分解方法[11]、[12]来生成HG的潜在维特征,但是,大规模矩阵分解的计算代价非常昂贵,而且还存在其统计性能的缺陷[13]、[14]。为了解决这一问题,异构图嵌入(即异构图表示学习)在保持异构结构和语义的同时学习将输入空间映射到低维空间的函数,近年来受到了相当大的关注。虽然已有大量的研究在只有一种节点和边的同构图[14]上嵌入技术,但由于HG数据的异质性,这些技术不能直接应用于HG。更具体地说,i) HG中的结构通常是语义依赖的,例如,元路径结构[8],这意味着在考虑不同类型的关系时,HG中的一个节点的局部结构可能是非常不同的;ii)不同类型的节点和边具有不同的属性,这些属性通常位于不同的特征空间中,因此在设计异构图嵌入方法特别是异构图神经网络(hgnn)时,需要克服属性的异质性来融合信息[15]、[16];iii)另一个是HG通常依赖于应用:例如,HG的基本结构通常可以通过元路径获取,但在现实中,元路径的选择仍然具有挑战性,这可能需要足够的领域知识。为了解决上述问题,各种异构图嵌入方法提出了[17],[18],[8],[9],[15],[2],其中许多[19],[20],[6],[21],[22],[23]的成功已经证明了异构图形嵌入技术部署在现实世界的应用程序包括推荐系统[2],[3],恶意软件检测系统[7],[22],[23],以及医疗系统[25]、[26]。
虽然异质图嵌入的研究已经在不同领域有了大量的应用,但还没有对异质图嵌入方法进行系统全面的研究,深入分析其优缺点,详细讨论其变换性和适用性。为了填补这一空白,本文将全面研究异构图嵌入的现有研究,包括代表性的方法和技术、在现实应用中部署的系统、公开可用的基准数据集和开源代码/工具。具体而言,(1)我们将探讨异构图嵌入的最新进展,介绍其代表性的方法和技术,并分析其优缺点;然后(2)我们将介绍并讨论已在现实应用中成功部署的现有异构图嵌入方法的转换性;之后(3)我们将总结公开的基准数据集和开放源代码/工具,以方便研究者和实践者在未来的异构图嵌入工作;最后讨论了异构图嵌入技术存在的问题和挑战,并展望了该领域未来的研究方向。值得注意的是,与以往的研究主要关注同构图的嵌入[14]、[27]、[28]、[29]、[30]、[31]不同,我们的研究目标是探索异质图的嵌入。虽然目前关于异构图嵌入[32]、[33]的研究还很少,但我们在这项工作中做出了自己的独特贡献,总结如下:
本调查论文的其余部分组织如下。在第2节中,我们首先介绍HG概念,并讨论异构图嵌入所面临的独特挑战。在第3节中,我们根据学习过程中使用的信息(如结构、属性、与应用相关的领域知识)对异构图嵌入方法进行了详细的分类和介绍,并在此基础上分析了它们的优缺点,并讨论了它们的适用性。在第四节中,我们进一步总结了目前常用的异构图嵌入方法。在第5节中,我们进一步探讨了已成功部署在现实应用系统中的现有异构图嵌入方法的转换性。第6节总结了用于异构图嵌入的基准数据集和开源代码/工具。第7节讨论了异构图嵌入的附加问题/挑战,并预测了该领域未来的研究方向。最后,第8节对本文进行了总结。
与同构图嵌入[14]不同,同构图嵌入[14]的基本问题是保持节点的结构和性质。由于异构性,异构图嵌入带来了更多的挑战,如下所示。
HG中不同类型的节点和链接带来不同的图形结构和丰富的属性(即异构性)。如2.2节所述,为了使节点嵌入捕获异构的结构和丰富的属性,我们需要考虑嵌入中不同方面的信息,包括图结构、属性和特定的应用标签等。基于上述挑战,在本节中,我们根据现有的异构图嵌入方法所使用的信息,将其分为四类:(1)结构保留的异构图嵌入。属于这一类的方法主要关注于捕获和保留异构结构和语义,例如元路径和元图。(2)属性辅助异构图嵌入。这些方法在嵌入技术中加入了结构之外的更多信息,如节点属性和边缘属性,从而更有效地利用邻域信息。(3)面向应用的异构图嵌入。我们进一步探讨了异构图嵌入方法的适用性(即那些旨在学习HG上面向应用的节点嵌入的方法)。(4)动态异构图嵌入。不同于现有的调查工作主要关注静态异构图的嵌入方法。在本研究中,我们进一步探索和总结了动态异构图嵌入方法,旨在捕捉异构图的演化,并在节点嵌入中保留时间信息。本文研究的不同类型异构图嵌入方法综述如图2所示。
图嵌入的一个基本要求是正确地保留图的结构[14]。因此,同构图嵌入更多地关注高阶图结构,如二阶结构[39]、[46]、高阶结构[47]、[48]和社区结构[40]。然而,HG的一个典型特征是它包含多个节点之间的关系,这不可避免地需要考虑图的异构性。因此,从图结构中学习语义信息是异构图嵌入的一个重要方向。在本节中,我们将回顾基于基本HG结构的典型异构图嵌入方法,包括链接(即边)、元路径和子图。链接是观察到的两个节点之间的关系,元路径由不同类型的链接组成,子图表示图的微小子结构。这三种结构是HG最基本的组成部分,能够从不同的角度捕捉语义信息。下面,我们将回顾基于这三种结构的典型的保持结构的异构图嵌入方法,并讨论它们的优缺点。
异构图嵌入需要保留的最基本信息之一是链接。与同构图不同,HG中的链接具有不同的类型和不同的语义。为了区分各种类型的链接,一个经典的想法是在不同的度量空间中处理它们,而不是在统一的度量空间中处理它们。一个代表性的工作是PME[17],它将每个链接类型视为一个关系,并使用一个特定于关系的矩阵将节点转换为不同的度量空间。通过这种方式,由不同类型的链接连接的节点可以在不同的度量空间中彼此靠近,从而捕获图的异构性。距离函数的定义如下:
其中 h i 和 h j ∈ R d ∗ 1 h_i和h_j∈R^{d*1} hi和hj∈Rd∗1分别表示结点i和结点j的节点嵌入, M r ∈ R d ∗ d M_r∈R^{d*d} Mr∈Rd∗d表示关系r的投影矩阵
PME在最小化节点之间的距离时考虑节点之间的关系,从而捕获图的异构性。损失函数是基于边际的三重损失函数,它要求正样本和负样本之间有一个距离:
与PME不同的是,其他方法通过利用关系特定矩阵来捕获链路异质性,目的是最大限度地提高由特定关系连接的两个节点的相似性。例如,EOE[50]和HeGAN[18]使用特定关系矩阵Mr计算两个节点之间的相似度,可以表示为:
基于链接(边)的方法只能捕获HG的局部结构,即一阶关系。事实上,描述更复杂语义信息的高阶关系也是异构图嵌入的关键。例如,在图1(a)中,一阶关系只能反映作者-论文、论文期限和论文地点的相似性。而作者-作者、论文和作者-会议的相似性无法很好地捕捉。因此,引入高阶关系来度量更复杂的相似度。由于高阶关系的数量非常大,为了降低复杂性,我们通常选择语义丰富的高阶关系,称为元路径。在本节中,我们将介绍一些具有代表性的基于元路径的异构图嵌入方法,这些方法可以分为两类:基于随机游走的方法[8],[59],[60],[61],[62]和基于混合关系的方法[9],[63]。
基于随机游走的方法通常使用元路径来指导HG上的随机游走,从而生成的节点序列包含丰富的语义信息。通过保留节点序列结构,节点嵌入可以同时保留一阶和高阶相似性。一个代表性的工作是metapath2vec。
Metapath2vec[8]主要使用元路径引导随机游走生成语义丰富的异构节点序列;然后设计一种异构的skip-gram技术,以保持节点v与其上下文节点之间的邻近性,即随机游走序列中的邻居:
基于metapath2vec,提出了一系列变体。Spacey[59]设计了一种异构的空间随机游走,利用二阶超矩阵来统一不同的元路径,控制不同节点类型之间的转移概率。JUST[60]提出了一种带有跳跃和停留策略的随机游走方法,在没有元路径的情况下,可以灵活选择改变或保持随机游走中下一个节点的类型。BHIN2vec[61]提出了一种扩展的skip-gram技术来平衡各种类型的关系。它将异构图嵌入作为一个基于关系的多任务,通过调整不同任务的训练比来平衡不同关系对节点嵌入的影响。HHNE[62]在双曲空间中进行元路径引导随机游走[64],其中节点之间的相似性可以通过双曲距离来度量。这样,HG的一些特性,如层次结构和幂律结构,就可以自然地反映在学习到的节点嵌入中。
与基于随机游走的方法从生成的节点序列中学习结构和语义信息不同,一些方法使用一阶关系和高阶关系(即元路径)的结合来捕捉HG的异质性,我们将这些工作称为基于混合关系的方法。一个典型的工作是HIN2vec,它联合执行多个关系预测任务,学习节点和元路径的嵌入。
HIN2vec的目的是预测两个节点是否通过元路径连接,这可以看作是一个多标签分类任务。
RHINE[63]是另一种基于混合关系的方法,它针对不同的关系设计不同的距离函数,从而增强了节点嵌入的表达能力。它将关系分为两类:隶属关系(ARs)和互动关系(IRs)。对于ARs,引入欧几里德距离函数;而对于IRs,RHINE提出了一种基于平移的距离函数。通过这两个距离函数的结合,RHINE可以学习到关系结构感知的异构节点嵌入。
子图表示图中较复杂的结构。在图嵌入中加入子图可以显著提高捕获复杂结构关系的能力。在本节中,我们介绍HG中两种广泛使用的子图:一种是元图,它反映了节点[41],[37]之间的高阶相似性;另一种是hyperedge(超边),它将一系列密切相关的节点连接起来,保持了节点之间的不可分解性[65]。
Zhang等人提出了metagraph2vec[41],它使用元图引导的随机游走生成异构节点序列。然后采用异构跳gram技术[8]学习节点嵌入。基于该策略,metagraph2vec可以捕获节点间丰富的结构信息和高阶相似度。与metagraph2vec在预处理步骤(即metagraph-guided random walk)中只使用metraph不同,mg2vec[37]的目的是联合学习metraph和node的嵌入,使metraph可以加入学习过程。它首先枚举元图,然后保持节点和元图之间的邻近性:
一般情况下,保持结构的异构图嵌入方法主要采用浅层模型,即没有非线性激活和多次转换的模型。这种方法的一个主要优点是具有良好的并行性,可以通过**负采样[58]**来提高训练速度。然而,正如我们所看到的,从链接到路径再到子图的高级结构和语义信息越来越多,这在本质上可能提高了性能,但也需要8次以上的计算。此外,还存在两个严重的问题:一是浅层模型需要为每个节点分配一个低维的嵌入,这需要更大的存储空间来存储参数。另一种是浅层模型只能在转换环境中工作,即不能学习新节点的嵌入。这两个缺点限制了这种方法在大规模工业场景中的应用。
除了图结构之外,异构图嵌入的另一个重要组成部分是丰富的属性。属性辅助异构图嵌入方法旨在对复杂结构和多个属性进行编码,以学习节点嵌入。不同于直接融合邻域属性更新节点嵌入的图神经网络(graph neural networks, gnn),由于节点和边的类型不同,HGNNs需要克服属性的异质性,设计有效的融合方法来利用邻域信息,从而带来更多的挑战。在本节中,我们将HGNNs分为无监督和半监督设置,然后讨论它们的优缺点。
无监督神经网络旨在学习具有良好泛化能力的节点嵌入。为此,他们总是利用不同类型属性之间的交互来捕捉潜在的共性。
HetGNN
其他无监督方法要么捕获节点属性的异构性,要么捕获图结构的异构性。HNE[69]被提议学习HG中跨模型数据的嵌入,但它忽略了各种类型的链接。SHNE[70]通过设计一个带有门控循环单元(GRU)的深层语义编码器来捕获节点的语义信息[71]。尽管SHNE使用异构跳过gram来保持图的异构性,但它是专门为文本数据设计的。Cen等人提出了GATNE[72],目的是学习多重图中的节点嵌入,即具有不同边缘类型的异构图。与HetGNN相比,GATNE更注重区分节点对之间的不同链路关系。
与无监督HGNNs不同,半监督HGNNs旨在以端到端方式学习特定任务的节点嵌入。因此,他们更倾向于使用注意机制来获取与任务最相关的结构和属性信息。
Wang等人提出了异构图注意网络(HAN),该网络使用层次注意机制捕获节点和语义重要性。HAN的体系结构如图5所示。
HAN首次将GNN扩展到异构图中,并设计了一种分层的注意机制,可以同时捕获结构和语义信息。
随后,一系列基于注意力的HGNNs被提出[74]、[75]、[74]、[76]、[77]。MAGNN[74]设计了元路径内聚合和元路径间聚合。前者以目标节点周围的元路径实例为例,通过一个注意力层来学习不同实例的重要性,后者旨在学习不同元路径的重要性。HetSANN[75]和HGT[76]将一种类型的节点作为查询,计算其周围其他类型节点的重要性,该方法不仅可以捕获不同类型节点之间的相互作用,而且在聚合时为邻居分配不同的权重。[77]使用元路径作为虚拟边来提高图注意算子的性能。
此外,还有一些hgnn关注其他问题。NSHE[78]提出在聚集邻域信息时加入网络模式,而不是元路径。GTN[79]的目的是在学习节点嵌入过程中自动识别有用的元路径和高阶链接。RSHN[80]同时使用原始节点图和粗线图设计了一个关系结构感知的HGNN。RGCN[81]使用多个权重矩阵将节点嵌入到不同的关系空间中,从而捕获图的异质性。
我们可以看到,有两种方法可以解决属性的异构性:一种是使用不同的编码器或特定类型的转换矩阵将不同的属性映射到同一个空间,如[16],[69]。另一种是将元路径作为一条特殊的边来连接具有相同类型的节点,如[15],[74]。与浅层模型相比,hgnn具有明显的优势,即具有归纳学习的能力,即对样本外节点[24]进行学习嵌入。此外,hgnn只需要存储模型参数,因此需要更小的内存空间。这两个原因对于现实世界的应用程序很重要。然而,他们在推断和再训练方面仍然遭受了巨大的时间成本。
异构图嵌入也与一些特定的应用紧密结合,而上述信息,如属性,对于特定的应用是不够的。在这样的设置下,通常需要仔细考虑两个因素:一是如何为特定的应用构建HG,二是异构图嵌入中应该包含哪些信息,即领域知识,从而最终使应用受益。在本节中,我们将讨论三种常见的应用程序类型:推荐、识别和邻近搜索。
在推荐系统中,用户和物品之间的交互可以自然地建模为具有两种节点类型的HG。因此,推荐是广泛使用HG信息[13]的典型场景。此外,其他类型的信息,如社交关系,在HG中也可以很容易地引入[82],将异构图嵌入到推荐应用中是一个重要的研究领域。
早期的工作主要基于用户与商品之间的元路径感知相似性向用户推荐商品,如HeteLearn[83]和SemRec[82]。随着嵌入技术的发展,提出了矩阵分解[84]、[85]、[86]、随机游走[2]和高级神经网络[3]、[87]、[88]、[89]、[20]、[19]来学习用户和物品的嵌入,从而捕获复杂的交互作用。
HERec[2]的目标是学习用户和物品在不同元路径下的嵌入情况,并将它们融合起来进行推荐。首先在用户-物品异构图上基于元路径引导的随机游走发现用户和物品的共现,然后使用node2vec[90]从用户和物品的共现序列中学习初步的嵌入。由于不同元路径下的嵌入包含不同的语义信息,为了获得更好的推荐性能,herc设计了一个融合函数来统一多个嵌入:
除了随机游走外,一些方法尝试使用矩阵分解来学习user和item嵌入。HeteRec[86]在HG中考虑了隐式用户反馈。HeteroMF[84]设计了一种异构矩阵分解技术来考虑不同类型节点的上下文依赖性。FMG[85]将元图整合到嵌入技术中,可以捕获用户和项目之间的一些特殊模式。
以往的方法主要使用浅层模型来学习用户和物品的嵌入情况,表达二者之间非线性交互的能力有限。因此,提出了一些基于神经网络的方法。在基于HG的推荐中,关注机制是最重要的技术之一,它旨在发现重要的用户和项目。MCRec[3]设计了一种神经协同注意机制来捕捉用户、项目和元路径之间的关系。具体来说,它使用用户和项来查找重要的元路径。同时,利用重要元路径寻找推荐中的重要用户和重要项目。通过这种相互选择的注意机制,MCRec不仅可以学习用户、项目和元路径的嵌入,还可以捕获它们之间的复杂交互。NeuACF[87]和HueRec[89]首先计算多个基于元路径的交换矩阵,其中每行表示用户-用户相似度或项目-项目相似度。然后设计注意机制,学习不同元路径交换矩阵的重要性,从而捕获不同的语义信息。
另一种重要的技术是图神经网络。PGCN[88]将用户-物品交互序列转换为物品-物品图、用户-物品图和用户序列图。然后设计一个HGNN来传播三个图中的用户和物品信息,从而捕获协同过滤信号。MEIRec[19]专注于电子商务中的意图推荐问题,其目的是根据用户历史行为自动推荐用户意图。构建了用户项-查询异构图,设计了元路径引导的HGNN来学习用户、项和查询的嵌入,从而捕获用户的意图。GNewsRec[91]和GNUD[5]用于新闻推荐。它们既考虑了新闻的内容信息,又考虑了用户与新闻之间的协作信息。[92]在异构图上采用图卷积网络进行篮子推荐
在第3节的开头,我们提到HG之前的调查[32],[33]主要是对静态方法进行总结,而动态方法在很大程度上被忽略了。由于现实世界的图是随着时间不断变化的,为了填补这一空白,在这一节中,我们总结了动态异构图嵌入方法。具体地说,它们可以分为两类:增量更新和重新培训的更新方法。前者利用现有的节点嵌入学习下一个时间戳中新节点的嵌入,后者在每个时间戳中对模型进行再训练。这两种方法都有其优缺点,我们将在最后进行讨论。
DyHNE[42]是一种基于矩阵扰动理论的增量更新方法,它在学习节点嵌入的同时考虑了节点嵌入的异质性和演化性。为了保证有效性,DyHNE保留了基于一阶和二阶近似的元路径。一阶接近要求由元路径m连接的两个节点具有相似的嵌入。二阶接近性表明节点嵌入应接近其相邻嵌入的加权和。具体来说,一阶和二阶近似可以统一重写为:
在上一节中,我们根据不同的问题设置对异构图嵌入方法进行了分类。在本节中,我们从技术的角度,总结了异构图嵌入中广泛使用的技术(或模型),一般分为浅层模型和深层模型两类。
早期的异构图嵌入方法主要采用浅层模型。它们首先随机初始化节点嵌入,然后通过优化一些精心设计的目标函数来学习节点嵌入。我们将浅层模型分为基于随机游走和基于分解的两类。
在同构图中,随机游走通常用于捕获图的局部结构,即在图中生成一些节点序列[90]。而在异构图中,节点序列不仅包含结构信息,还包含语义信息。因此,提出了一系列语义感知的随机游走技术[57],[8],[59],[60],[61],[62],[2]。例如,metapath2vec[8]使用元路径引导的随机游走来捕获两个节点的语义信息,例如学术图中的合著者关系。Spacey[59]和metagraph2vec[41]设计了metraph -guided random walks,它保持了两个节点之间更复杂的相似性
基于分解的
基于分解的技术旨在将HG分解成几个子图,并保持每个子图[17],[50],[52],[53],[55],[56]中节点的邻近性[66]。PME[17]将异构图按照链接的类型分解为一些二部图,并将每个二部图投射到一个关系特定的语义空间中。PTE[56]将文档分为单词-单词图、单词-文档图和单词-标签图。然后使用LINE[39]学习每个子图的共享节点嵌入。HEBE[66]从HG中采样一系列子图,并保持中心节点与其子图之间的邻近性。
深度模型旨在利用先进的神经网络从节点属性或节点之间的交互中学习嵌入,大致可分为三类:基于消息传递的、基于编码器-解码器的和基于对抗的。
基于消息传递的 消息传递的思想是将嵌入的节点发送给它的邻居,这在GNNs中经常使用。基于消息传递技术的关键是设计一个合适的聚合函数,可以捕获HG的[15]、[74]、[75]、[16]、[72]、[78]、[79]、[80]、[81]等语义信息。HAN[15]设计了分层注意机制来学习不同节点和元路径的重要性,同时捕获HG的结构信息和语义信息,HetGNN[16]采用bi-LSTM对邻域的嵌入进行聚合,从而学习异构节点之间的深度交互。GTN[79]设计了一个聚合函数,可以在消息传递过程中自动找到合适的元路径。
基于编码器-解码器的 基于编码器-解码器的技术旨在利用一些神经网络作为编码器,从节点属性中学习嵌入,并设计一个解码器来保留图的一些属性。例如HNE[69]关注的是多模态异构图。它分别使用CNN和自动编码器从图像和文本中学习嵌入。然后,它利用嵌入来预测图像和文本之间是否存在联系。Camel[93]使用GRU作为编码器从摘要中学习纸张嵌入。为了保持图的局部结构,采用了一个跳gram目标函数。DHNE[65]使用自动编码器学习超边缘节点的嵌入。然后设计了二值分类损失,以保持超图的不可分解性。
基于对抗的 基于对抗性的技术利用生成器和鉴别器之间的博弈学习鲁棒节点嵌入。在同构图中,基于对抗的技术只考虑结构信息,例如GraphGAN[121]在生成虚拟节点时使用广度优先搜索。在异构图中,鉴别器和生成器被设计成关系感知的,它捕获了高分辨率图的丰富语义。HeGAN[3]是第一个将GAN用于异构图嵌入的算法。它将多个关系合并到生成器和鉴别器中,从而可以考虑给定图的异构性。MV-ACM[120]通过计算不同视图中节点的相似度,使用GAN生成互补视图。
在表2中,我们从不同的角度对典型的异构图嵌入方法进行了分类。具体来说,从左到右,我们逐步对每种方法的性质进行粗化,从而总结出它们的共性。
前两列表示该方法是否具有归纳能力,是否需要进行标签训练。我们可以看到,大多数基于消息传递的方法具有归纳能力,因为他们可以通过聚集邻域信息来更新节点嵌入。但他们需要额外的标签来指导训练过程。
中间两列显示了每种方法中的信息和任务。可以看出,大多数基于深度学习的方法是针对具有属性或特定应用的HG提出的,而基于浅层模型的方法主要是针对结构的使用而设计的。一个可能的原因是具有属性或特定应用程序的HG通常需要引入额外的信息或领域知识。然而,对领域知识进行建模可能会很复杂,而且可能还需要仔细描述与HG的关系。深度模型为这种复杂的建模提供了更强大的支持,有助于在复杂的应用场景中取得更好的进展。同时,新兴的HGNNs能够自然地整合图形结构和属性,更适合于复杂的场景和内容。
最后两栏概述了HG的嵌入技术及其特点。浅层模型很容易并行化。但它们是两阶段训练,即嵌入与下游任务无关,且存储代价较大。相反,深度模型是端到端训练,需要更少的内存空间。此外,基于消息传递的技术善于同时编码结构和属性,并集成不同的语义信息。与基于消息传递的技术相比,基于编解码器的技术由于缺乏消息传递机制,在信息融合方面比较薄弱。但它们更灵活,可以通过不同的解码器引入不同的目标函数。基于对抗性的方法倾向于利用负样本来增强嵌入的鲁棒性。但是负样本的选择对性能有很大的影响,导致更高的方差[18]。
值得注意的是,我们还列出了每种技术的复杂性,其中τ是随机漫步的数量,l是随机漫步的长度,k是skip-gram中的窗口大小,n是样本的数量。随机游走技术的复杂性包括两个部分:随机游走和跳克,它们都与节点数呈线性关系。分解技术需要根据边的类型将HGs划分成子图,因此复杂度与边的数量成线性关系,比随机游走高。消息传递技术主要采用节点级和语义级的注意力来学习节点嵌入,因此其复杂性与节点数量和节点类型有关。在编码器-解码器技术中,编码器的复杂度与节点数有关,而解码器通常用于保持网络结构,因此与边数成线性关系。对抗技术需要为每个节点生成负样本,因此其复杂度与节点数量和负样本数量有关
异构图嵌入与现实世界的应用密切相关,异构对象和交互在许多实际系统中普遍存在。本文重点总结了异构图嵌入在工业层面的应用。不同于第3.3节中提到的具有具体任务的方法,本节介绍的方法是用工业数据解决应用中的实际问题。此外,对于工业层面的应用,我们更关注两个关键组件:基于工业数据的HG建设和HG上的图形嵌入技术。
在本节中,我们总结了常用的异构图嵌入数据集。此外,我们还介绍了一些关于异构图嵌入的有用资源和开源工具。
高质量的数据集对学术研究至关重要。在这里,我们介绍了一些流行的现实世界的HG数据集,它们可以分为三类:学术网络、商业网络和电影网络。具体来说,我们在表3中总结了它们的详细统计信息,包括节点类型、链接类型和元路径等。
异构图嵌入近年来取得了很大的进展,这表明它是一种功能强大、前景广阔的图分析范式。在本节中,我们将讨论其他问题/挑战,并探讨一系列未来可能的研究方向。
异构图嵌入的基本成功建立在HG结构保存的基础上。这也激发了许多异构图嵌入方法来利用不同的HG结构,其中最典型的是元路径[8],[13]。沿着这个思想,元图结构很容易想到。然而,HG远不止这些结构。在现实世界中,选择最合适的元路径仍然非常具有挑战性。不正确的元路径将从根本上阻碍异构图嵌入方法的性能。我们是否可以探索其他技术,如motif[130]、[36]或network schema[78]来捕捉HG结构是值得研究的。此外,如果我们重新考虑传统的图嵌入的目标,即用度量空间中的距离/相似度替换结构信息,我们能否设计一种能够自然学习这种距离/相似性的异构图嵌入方法,而不是使用预先定义的元路径/元图,这是一个需要探索的研究方向。
如前所述,目前许多异构图嵌入方法主要考虑结构。然而,一些属性,通常提供额外的有用信息模型HG,没有被充分考虑。一个典型的特性是HG的动态特性,即现实世界中的HG总是会随着时间而演变。尽管在动态HG上提出了增量学习[42],但动态异构图嵌入仍然面临着巨大的挑战。例如,[103]仅在浅层模型下提出,极大地限制了其嵌入能力。如何在深度学习框架中学习动态异构图是一个值得研究的问题。另一个属性是HG的不确定性,即HG的生成通常是多方面的,一个HG中的节点包含不同的语义。传统上,学习向量嵌入通常不能很好地捕捉这种不确定性。高斯分布可能天生代表了不确定性[135],[136],这在目前的异构图嵌入方法中很大程度上被忽略了。这为改进异构图嵌入提出了一个巨大的潜在方向。
我们已经见证了GNN的巨大成功和巨大影响,其中大多数现有的gnn被提出用于齐次图[137],[138]。最近,HGNNs引起了相当多的关注[15],[16],[74],[72]。
一个自然的问题可能会出现:gnn和hgnn之间的本质区别是什么?对hgnn的理论分析严重缺乏。例如,人们普遍认为gnn存在过平滑问题[139],那么异质gnn是否也存在过平滑问题呢?如果答案是肯定的,那么是什么因素导致了hgnn中的过平滑问题,因为它们通常包含多个聚合策略[15],[16]。
除了理论分析外,新工艺设计也很重要。其中最重要的一个方向是自我监督学习。它利用借口任务来训练神经网络,从而减少对人工标签的依赖。[140]。考虑到标签不足的实际需求,自监督学习可以极大地有利于无监督和半监督学习,并在齐次图嵌入上表现出了显著的性能[141]、[142]、[143]、[144]。因此,探索异构图嵌入的自监督学习有望进一步促进该领域的发展。
另一个重要的方向是HGNN的预处理[145],[146]。目前,hgnn是独立设计的,即所提出的方法通常能很好地处理某些特定任务,但没有考虑到跨任务的迁移能力。在处理一个新的HG或任务时,我们必须从头开始训练异构图嵌入方法,这既耗时又需要大量的标签。在这种情况下,如果有一个预先训练好的、泛化能力强的HGNN,可以用很少的标签进行微调,就可以减少时间和标签消耗。
除了HG的特性和技术外,我们还关注HG嵌入的公平性、稳健性和可解释性等伦理问题。考虑到大多数方法都是黑盒法,如何使HG嵌入可靠是今后的一个重要工作。
HG嵌入的公平性。通过方法学习到的嵌入有时与某些属性高度相关,如年龄或性别,这可能会放大预测结果中的社会刻板印象。因此,学习公平或去偏嵌入是一个重要的研究方向。关于齐次图嵌入的公平性也有一些研究。然而,HG的公平性仍是一个未解决的问题,是今后的一个重要研究方向。
HG嵌入的鲁棒性。此外,HG嵌入的鲁棒性,特别是对抗性攻击,一直是一个重要问题。由于现实世界中的许多应用都是基于HG构建的,因此HG嵌入的鲁棒性成为亟待解决的问题。HG嵌入的缺点是什么,如何增强它以提高鲁棒性有待进一步研究。
HG嵌入的可解释性。此外,在一些风险意识场景中,例如欺诈检测和生物医药,模型或嵌入的可解释性是重要的。HG的一个显著优势是它包含丰富的语义,这可能为促进异构GNNs的解释提供卓越的见解。此外,新兴的解纠缠学习也可以考虑,它将嵌入划分为不同的潜在空间,以提高可解释性。
许多基于hg的应用程序已经进入了图嵌入的时代。这项调查已经证明了异构图嵌入方法在电子商务和网络安全方面的强大性能。在其他领域探索更大容量的异构图嵌入具有很大的潜力。例如,在软件工程领域,测试样本、请求表、问题表之间存在复杂的关系,可以自然地用HG表示,因此异质图嵌入有望为这些新领域开辟广阔的前景,成为有前景的分析工具。另一个领域是生物系统,它也可以自然地建模为HG,一个典型的生物系统包含许多类型的对象,如基因表达、化学、显型和微生物。基因表达与表型之间也存在多重关系[153]。HG结构已作为一种分析工具应用于生物系统,这意味着异质图嵌入有望提供更有前景的结果。
此外,由于hgnn的复杂度相对较大,技术难以并行化,现有的hgnn难以应用于大规模工业场景。例如,电子商务推荐中的节点数量可能达到10亿[20]。因此,在解决可伸缩性和效率挑战的同时,在各种应用中成功地部署技术将是非常有前途的。
最后但并非最不重要的是,还有一些重要的未来工作不能在前面几节中加以总结。因此,我们将在本小节中仔细地讨论它们。
双曲异构图嵌入 最近的一些研究指出,图的潜在空间可能是非欧几里德的,但在双曲空间[113]。人们已经对双曲图/异构图嵌入进行了一些尝试,结果非常有希望[114],[115],[62]。然而,如何设计有效的双曲异构gnn仍然是一个挑战,这可能是另一个研究方向。
异构图结构学习 在现有的异构图嵌入框架下,HG通常是预先构建的,它独立于异构图嵌入。这可能导致输入HG不适合最后的任务。HG结构学习可以与异构图嵌入进一步集成,使其相互促进。
与知识图谱的联系 知识图嵌入在知识推理方面具有很大的潜力[154]。然而,知识图嵌入和异构图嵌入通常是分开研究的。近年来,知识图嵌入已经成功应用到其他领域,如推荐系统[155]、[156]。如何将知识图嵌入与异构图嵌入相结合,将知识融入到异构图嵌入中,是一个值得研究的问题。
异构图嵌入极大地促进了HG分析和相关应用。本研究对现有的异构图嵌入方法进行了全面的研究。系统地介绍了对审查过的方法以及广泛使用的基准和资源进行的深入讨论和总结。我们希望本研究能够为异质图嵌入提供一个清晰的轮廓,有助于有兴趣的读者和希望继续研究这一领域的研究者。