【论文翻译|2021】A survey on heterogeneous network representation learning 异构网络表示学习综述

文章目录

  • 摘要
  • 1引言
  • 2 相关工作
  • 3 相关概念
  • 4 分类
    • 4.1 异构信息网络表示方法概览
    • 4.2 异构信息网络嵌入算法的分类
    • 4.3 基于路径的算法
      • 4.3.1 传统的机器学习
  • 5 讨论
    • 5.1 语义关系抽取
    • 5.2 动态异构网络
    • 5.3 大规模异构网络
    • 5.4 异构网络构建
  • 6 结论

论文链接: A survey on heterogeneous network representation learning
论文作者:来自山西大学和西安电子科技大学的同学
来源:Pattern Recognition(计算机科学1区Top)

摘要

异构信息网络通常包含不同类型的节点和不同类型的关系,可以比同构信息网络保存更多的信息。异构网络表示学习试图为每个节点学习一个低维表示,并获取给定网络的丰富语义信息。现有的研究大多集中在异构信息网络分析和同质信息网络表征学习方面。虽然大量的研究都集中在异质网络表征学习上,但很少有研究系统地回顾了目前最先进的异质网络表征学习技术。基于此,根据异构网络中获取语义信息的不同方法,提出了异构网络表示学习算法的分类,包括基于路径的算法和基于语义单元的算法。详细介绍了典型的异构网络表示学习技术,并对这些技术进行了比较分析。此外,还讨论了语义保留、数据稀疏性和可扩展性等方面的研究挑战。针对这些问题,提出了今后异构网络表示学习的研究方向,包括语义关系提取、动态异构网络、超大异构网络和异构网络构建。

1引言

近年来,信息网络的应用越来越广泛,包括引文网络[1]、生物网络[2]、商业网络[3]、媒体网络[4]和社交网络[5]等。这些真实世界的信息网络通常是大规模的,有数百万甚至数十亿个节点[6-8]。为了探究隐藏在给定复杂网络中的信息,人们在同构信息网络上进行了一些可考虑的工作,如链接挖掘[9]、web挖掘[10]、社会网络分析[1 1]和图挖掘[12]。这些作品中的大多数都假设对象的类型和边的关系是唯一的。然而,有许多真实的应用系统是由多种类型的节点和边组成的,以保持丰富的语义信息,它们被建模为异构信息网络。与广泛应用的同构信息网络相比,异构信息网络通过对多类型节点和边的表征,可以有效地整合更多的信息和丰富的语义。越来越多的研究人员专注于异构信息网络分析和相关数据挖掘任务,如相似度搜索[13,14]、聚类[15]、分类[16]。目前迫切需要研究有效的和高效的异构网络代表-本方法,因为高质量的异构网络工作表示可以提高后续的机器学习任务,如节点的性能分类[17],节点clu,就业增长率[18],[19]链接预测和可视化[20],等等。异构网络表示学习致力于学习每个节点的低维向量表示,其主要目标是获取给定异构网络中的丰富语义。为了进一步理解异构信息网络表示,图1 (a)和图1 (b)给出了异构网络表示学习的概念视图。
在异构网络中获得高质量的节点向量表示本质上是困难的,并面临如下关键挑战。(i)语义保留:异质网络包含不同种类的顶点和边,从而产生多种语义关系。捕获语义关系有助于为给定的异构信息网络中的每个节点学习高质量的向量表示。为了捕获丰富的语义信息,提出了几个经典的采样方法,如随机游走[21]、元路径[22]和元图[23]。异构网络中节点和链路之间的信息传播比同构网络中复杂得多,这给现有的提取丰富复杂语义关系的方法带来了一定的局限性。提出了一种有效的保留异构信息网络中丰富语义的方法。(ii)数据稀疏性:在异构信息网络中,每个节点通常只链接到其他节点的一小部分,节点内容属性往往不完整。因此,异构信息网络的网络结构和节点内容都是稀疏的。在结构层次上,由于只有明确连接的两个节点之间的边才容易被观察到,所以很难发现两个未明确连接的节点之间的关联。在节点内容层次上,由于节点的许多属性值丢失,对给定网络中节点之间的相似性进行度量是一项艰巨的工作。因此,如何克服数据稀疏性是异构网络表示学习的一个难题。(iii)可扩展性:现实世界的异构网络通常由数百万甚至数十亿个节点组成,这些节点具有复杂的拓扑关系特征。从各种来源学习这些节点对象的低维和统一向量表示是很有前途的。然而,大规模异构信息网络的计算和存储成本高,不仅限制了传统的学习算法的应用,也对现有的网络表示学习方法提出了挑战。在实践中,学习大规模信息网络中节点的向量表示通常需要很长时间。因此,针对大规模异构信息网络,提出高效的网络表示学习技术已成为当务之急。
为了解决这些问题,提出了各种异构网络表示学习技术。系统地总结这些技术是了解异构网络表示学习研究进展的关键。目前已有两项关于异构网络表征学习的研究,但均未对异构网络表征学习的具体技术进行研究。Shi等[25]系统分析了异构信息网络的相似性度量、聚类、分类、链接预测、排序、推荐和信息融合等数据挖掘任务。Yan等[26]介绍了异构网络中基于元路径的链接预测、相似度搜索和推荐等应用。这两项研究主要是对异构信息网络的应用进行分析,而不是对异构网络嵌入技术进行综述。基于此,我们提供了一个不同于以往工作的调查。具体地,我们提出了一种新的分类算法,包括基于路径的算法,基于语义单元的算法和其他算法,以总结异构网络表示学习领域的流行方法。我们进一步比较了经典的表示学习方法,并展示了每种方法的具体应用。
本文对异构网络表示学习算法进行了分类,重点研究了异构信息网络嵌入的典型技术。异构网络嵌入算法的总体分类如图2所示。本文旨在为异构信息网络表征学习领域的研究人员提供一个有用的指导。总的来说,这项调查有以下三个主要贡献。

  • 提出了一种新的异构网络表示学习算法的分类方法,包括基于路径的算法、基于语义单元的算法和其他算法。
  • 我们详细地介绍和比较了经典的异构网络表示学习技术,并展示了每种方法的一些具体应用。显然,这个调查为更好地理解现有的工作带来了新的视角。
  • 为促进研究者在该领域的进一步研究,总结了异构网络表征学习面临的研究挑战,并提出了未来的研究方向。

本调查的其余部分组织如下。在第二节中,我们回顾了两个关于异构网络的调查。第3节给出了定义和初步内容,以便理解接下来将要讨论的问题和模型。第四节给出了异构网络表示学习算法的合理分类。接下来,在第5节我们总结了异构网络表征学习面临的挑战,并指出了未来的发展方向。最后,第6节对我们的调查进行总结。

2 相关工作

近年来,以学习节点[27]的低维密集表示,捕捉异构网络[28]中的丰富语义关系为目标的异构网络表示学习受到了广泛关注。在本节中,我们将介绍现有的关于异构信息网络的调查。
目前关于异构信息网络的研究主要有两个。Shi等[25]阐述了信息网络、异构/同构网络、网络模式和元路径的基本概念和定义。强调了异构网络与同构网络、多关系网络、多维网络、复合网络和复杂网络等几种广泛应用的网络的区别。在此基础上,提出了异构信息网络的真实数据集,以及异构信息网络在相似性度量、聚类、分类、链接预测、排名和推荐等方面的各种应用。此外,他们还介绍了更复杂的网络结构、更强大的挖掘方法、更大的网络数据和更多的应用等几个先进的主题和未来的研究方向。Yan等人介绍了一些先进的和流行的主题,包括排序和聚类,基于元路径的异构信息网络研究,以及其他新的异构信息网络模型。他们还提出了基于元路径的真实世界应用,如合著者预测、个性化推荐和查询推荐。提出了进一步相似性搜索、细化异构信息网络和异构网络嵌入等研究前沿。综上所述,本文介绍了异质信息网络分析的发展、应用、未来的研究方向等。然而,在这两个调查中都没有对异构网络表示学习算法进行分类。因此,本研究提出了异构网络表示学习算法的明确分类,并讨论了具体的异构网络表示学习技术

3 相关概念

4 分类

近年来,人们对异构信息网络表示学习进行了深入的研究,重点是设计更高效、更实用的嵌入算法。在本节中,我们将简要介绍关于异构信息网络的历史相关的作品表示4.1节中学习,然后提出一个分类4.2节的这个领域,涵盖4.3节中基于路径的方法,基于语义单元方法在4.4节和4.5节中的其他算法。

4.1 异构信息网络表示方法概览

我们见证了关于异构网络表示学习的新方法的兴起。例如,HINE[31]是一个由两种嵌入机制组成的联合框架,它不仅捕获局部和全局的语义信息,而且保留了用户引导的语义。为了解决异构网络中保留丰富语义信息的问题,Shi等人研究了一种非监督模型HEER,该模型利用边缘表示和异构度量来保留不同的语义,即使存在不兼容性。此外,元路径[33]的提出为利用受限随机游走探索异构信息网络的丰富语义提供了新的视角。此外,后续的研究主要关注于获得更有效的嵌入向量,从而有利于下游的机器学习任务。Huang等人设计了两个模型,通过最小化邻近节点的距离来保持异构信息网络中基于元路径的邻近性。Shi et al.[35]提出了一种数据驱动的关联度量,将三个特征(即节点可见性、路径选择性和跨元路径协同)集成在一个统一的框架中。此外,Dong等人通过在ship-gram模型的输出层中为每个邻居类型指定一组多项式分布,提出了metapath2vec和metapath2vec++框架工作来编码异构网络的结构和语义信息。在[36]中研究了HIN2Vec,它包含两个模块分别学习节点向量和元路径向量。Fang等[37]提出了一种名为TransPath的网络嵌入模型,通过元路径来表征网络的语义和结构信息。为了更好地利用路径的语义信息,并通过避免其他噪声和无意义的元路径来提高效率,引入了一种用户引导的元路径抽取方法来限制元路径模式。
Tan等[38]通过在异构信息网络上进行基于语义路径的表示学习,并在表示学习过程中整合不同的语义路径,设计了一种高效的网络嵌入框架。在异构信息网络中,通过预测节点之间的关系,可以得到节点和关系的潜在向量。与以往的工作相比,该方法可以捕获更多的上下文信息。然而,由于信息收集的困难,实际场景中的异构信息网络往往是不完整的。它们可能会遗漏一些关键节点和边缘,从而导致基于元路径的算法在获取远节点之间的深度语义方面存在缺陷。 为了解决这一挑战,[39]中提出了一种名为MetaGraph2Vec的健壮方法。与元路径相比,元图在引导随机游走生成和处理复杂语义信息方面具有更好的性能。Sun等人提出了两种基于元图的节点嵌入方法,分别是MEGA和MEGA++。他们引入了一种有效的基于元图的相似性度量方法——Graph-Sim,并取得了比之前的基于元图的相似性度量方法(如StructCount和SCSE)更好的性能。
Gui等人使用超边定义异构信息网络表示学习问题,并且以完整和连续的语义为事件建模关联。提出了一种新的基于超边的嵌入框架,并进一步设计了两种方法(基于超边的嵌入预测对象和基于超边的嵌入预测超边)来保持每个事件中参与对象的接近性。此外,Tu等人引入了一种新的深度模型,称为深度超网络嵌入 (DHNE),以学习异构超网络中节点的嵌入。他们从理论上证明了任何线性相似度量嵌入空间都不能保持超网络的可分解性,因此提出了一个既能保持超网络的可分解性,又能保持超网络的局部和全局结构信息的模型。此外,Zhang等人的[43]形式化了HetNets中的内容感知表示学习问题,并开发了CARL模型来解决该问题。引入相应的优化策略和训练算法,有效学习节点表示。Qu等人[44]提出了一种新的异构星型网络节点表示学习的课程学习方法,该方法旨在学习一序列的边类型,用于节点表示学习。他们将该问题描述为马尔可夫决策过程,并提出了一种基于深度强化学习的方法。傅等人[45]通过定义事件驱动的一阶和二阶接近度来测量对象相关性。针对异构信息网络的嵌入问题,提出了一种新的网络表示学习框架Event2vec。他们证明了Event2vec在嵌入空间中保留了事件驱动的一阶和二阶近似性。Zhou等人设计了一个分层注意异质网络嵌入模型来学习异质信息网络嵌入。他们精心设计了一种分层注意机制来识别邻里节点和元路径对学习综合嵌入的重要性。

4.2 异构信息网络嵌入算法的分类

现有的异构信息网络嵌入方法可以分为三大类:(1)基于路径的,(2)基于语义单元的,(3)其他的。更具体地说,本调查从传统机器学习和深度学习的角度调查了每一类技术。图2是异构信息网络嵌入研究综述。下面我们将介绍这三个类别的特点,并给出每个类别的代表性算法。

4.3 基于路径的算法

基于路径的算法以一系列节点上下文序列的形式表示节点之间的连接。这些节点上下文序列不仅可以用来通过词嵌入方法为节点生成嵌入向量,还可导出各种矩阵(即基于路径的邻接矩阵、基于路径的相似矩阵、共现矩阵)以保持节点之间的关系。接下来,这些矩阵可以作为传统机器学习技术或深度学习技术的源数据,得到节点的嵌入向量。

4.3.1 传统的机器学习

MetaPath2vec, MetaGraph2vec and SERL

5 讨论

在此,我们介绍了一些先进的课题,包括异构网络表示学习的挑战和未来的研究方向。

5.1 语义关系抽取

随着异构信息网络研究的深入,异构信息网络中对象之间的语义关系引起了广泛关注。引入了元路径、元图等多种网络模式来描述异构网络中对象之间的语义关系。不同的模式可以表征不同的语义关系,信息图式在异构信息网络学习中起着至关重要的作用。总的来说,语义关系的全面捕获可以显著提高异构网络表示学习的性能。虽然异构网络比同构网络包含更丰富的语义信息,但网络的异构性给语义信息的提取带来了困难。如何有效地捕获异质信息网络中丰富的语义关系仍然是一个突出的研究挑战。

5.2 动态异构网络

目前对异构网络表示学习的研究主要集中在静态网络结构上。然而,在现实的应用场景中,网络结构是不断演变的。更具体地说,新节点和新边的增加,旧节点的退出和旧边的消失都在不断发生。动态异构网络使这些静态异构网络表示学习技术如MetaPath2Vec [33], HINE [31], DHNE[42]失效。此外,当节点的性质随时间变化时,动态异构网络表示学习面临着另一个挑战。因此,为动态异构网络设计高效的表示学习算法已成为日益迫切的问题

5.3 大规模异构网络

现实场景中的网络通常有数百万甚至数十亿个节点[77]。在异构网络中,不仅节点类型复杂,而且节点之间的关系也很复杂。传统的异构网络表示学习方法,特别是基于矩阵分解的表示学习方法,难以处理大规模的异构网络。训练一个理想的模型可能会花费大量的时间,它有望在不丢失丰富语义信息的情况下合理地将一个大型网络分解成不同的小网络。此外,开发可扩展的分布式异构网络嵌入体系结构也值得进一步探索。

5.4 异构网络构建

实际上,当代关于异构信息网络的研究基本假设是:待研究的网络是明确的,网络中的对象和链路是明确的。然而,在实际应用中却不是这样。在实际应用中,从真实数据构建异构信息网络是一项艰巨的任务。网络中的对象可能与现实应用中的实体并不完全对应,例如书目数据中的名称重复[78]。具体来说,网络中的一个对象可以引用多个实体,或者不同的对象可以引用同一个实体。此外,对象之间的关系有时可能没有明确给出或不完整,例如DBLP网络中的顾问-被顾问关系[79]。更重要的是,物品和链接可能不可靠,例如电子商务网站中不准确的物品信息和多个网站中特定物品的信息冲突。因此,从现实世界构建异构信息网络往往面临着特殊的挑战。

6 结论

近年来,异构信息网络以其丰富的结构和语义信息引起了广泛的关注。在本文中,我们提供了一个广泛的调查在这一迅速增长的领域。通过本研究,我们对异构网络表征学习技术进行了综述。对现有异构网络嵌入算法提出了一种新的分类方法。现有的异构网络嵌入算法主要有基于路径的算法、基于语义统一的算法和其他算法。并对异构网络表示学习的先进算法进行了详细的分析。最后,讨论了该领域面临的主要挑战,并提出了未来的研究方向。显然,这项调查将为研究人员理解这一领域的基本问题提供新的视角。

你可能感兴趣的:(GNN,图神经网络)