关键词:HIN, GNN, Graph Embedding
【注】本篇文章与HAN于同年先后提出,可结合看。
相关文章解读
异构图中的表示学习旨在为每个节点追求有意义的向量表示,为链接预测、个性化推荐、节点分类等下游应用提供便利。然而,这项任务具有挑战性,不仅因为需要合并由多种类型的节点和边组成的异构结构(图)信息,而且还因为需要考虑异构属性或内容(e.д。,文本或图像)与每个节点关联。虽然在同质(或异构)图嵌入、属性图嵌入以及图神经网络等方面已经做了大量的研究,但很少有研究能够有效地结合考虑每个节点的异构结构(图)信息和异构内容信息。本文提出一种异构图神经网络模型HetGNN来解决这一问题。具体来说,我们首先引入带重启策略的随机游走 ,对每个节点的强相关异构邻居进行固定大小的采样,并根据节点类型将它们分组。其次,我们设计了一个包含两个模块的神经网络结构来聚合采样的邻近节点的特征信息。第一个模块对异构内容的“深度”特征交互进行编码,生成面向每个节点的内容嵌入。第二个模块对不同相邻组(类型)的内容(属性)嵌入进行聚合,并考虑不同组(类型)的影响进行组合,得到最终节点嵌入。最后,我们利用一个图上下文丢失和一个小批量梯度下降过程以端到端方式训练模型。在多个数据集上进行的大量实验表明,HetGNN在各种图挖掘任务中,即链路预测、推荐、节点分类聚类和归纳节点分类聚类,都能优于最先进的基线。
异构图(HetG)包含丰富的多类型节点之间具有结构关系(边)的信息,以及与每个节点相关联的非结构化内容。
传统上,各种各样的HetG任务都依赖于来自于手工特征工程任务的特征向量。这需要对HetG的不同统计数据或特性进行规范和计算,作为下游机器学习或分析任务的特征向量。然而,这可能是非常有限的,不能推广。最近,出现了一种表示学习方法,可以自动完成特征工程任务,从而促进大量下游的机器学习或分析任务。从同构图[6,20,29]开始,图表示学习已经扩展到异构图[1,4]、属性图[15,34]以及特定图[22,28]。例如,“浅”模型e.д。, DeepWalk[20],最初开发的目的是向SkipGram模型[19]提供一组图上的短随机漫步,以近似这些漫步中的节点共生概率,获得节点嵌入。接下来是语义感知方法,e.д。提出了metapath2vec[4],以解决异构图中的节点和关系异构问题。此外,content-aware方法e.д。, ASNE[15],利用“潜在”特征和属性来学习节点嵌入图。
这些方法直接学习节点的“潜在”嵌入,但在获取丰富的邻域信息方面有局限性。图神经网络(GNNs) 利用深度神经网络对相邻节点的特征信息进行聚合,使得聚合后的嵌入更加强大。此外,GNNs可以很自然地应用于推理性任务,包括训练期间不存在的节点。GCN、GraphSage、GAT分别采用卷积算子、LSTM架构和自注意机制对相邻节点的特征信息进行聚合。GNN的发展和应用主要集中在同构图上。目前最先进的gnn还没有很好地解决HetG所面临的以下挑战,我们在本文中解决了这些问题。
在本节中,我们介绍了将在本文中使用的与内容相关的异构图的概念,然后正式定义异构图表示学习的问题。
C-HetG定义为 G = ( V , E , O V , R E ) G = ( V , E , O_V , R_E ) G=(V,E,OV,RE), G = ( V , E , O V , R E ) G = ( V , E , O_V , R_E ) G=(V,E,OV,RE)
分别代表节点类型集合边类型集。每个节点都有异质的内容信息,比如属性、文本、图片。
给定C-HetG G = ( V , E , O V , R E ) G = ( V , E , O_V , R_E ) G=(V,E,OV,RE)和节点内容集 C CC,目标就是学习到参数为 Θ Θ Θ的函数 F Θ F_Θ FΘ ,该函数可为每个节点学习到d维的嵌入,以用于多种下游任务。并且该模型能够编码异质的图结构信息以及节点中异质的无结构的内容信息。
在本节中,我们正式介绍HetGNN来解决第1节中描述的三个挑战。HetGNN包括四个部分:(1)对异构邻居进行抽样;(2)对节点异构内容进行编码;(3)聚合异构邻居;(4)制定目标,设计模型训练流程。图2说明了HetGNN的框架。
大多数图神经网络(GNNs)的核心思想是从一个节点的直接(一阶)邻居(如GraphSAGE[7]或GAT[31])聚集特征信息。然而,直接将这些方法应用于异构图可能会引发几个问题:
针对这些问题,为了解决挑战C1,我们设计了一种基于带重启的随机漫步(RWR)异构邻居采样策略。它包含两个连续的步骤:
该策略能够避免上述问题,因为:
其次,我们设计了一个异构图神经网络结构,该结构包含两个模块,用于聚合每个节点的异构邻居采样特征信息
实验目的
回答4个问题:
数据集
使用了两种HetG,学术图和评论图。
对比方法
metapath2vec(MP2V, 异质图), ASNE(属性图), SHNE(属性图),GraphSAGE(GSAGE), GAT
实验结果
(4)inductive的节点分类和聚类
(5)消融实验
(6)超参数设置对模型效果的影响
相关研究包括:(1)异构图挖掘;(2)图表示学习;(3)图形神经网络。
异构图挖掘。在过去的十年中,许多工作致力于挖掘异构图(HetG)用于不同的应用,如关系推理[2,25,33,35],个性化推荐[10,23],分类[36]等。例如,孙等人[25]利用基于元路径的方法来提取拓扑特征和预测学术图中的引用关系。陈等人[2]设计了一个基于HetG的匿名论文作者排名模型。张等[36]在HetG中提出了一种用于集体分类的深度卷积分类模型。
图表示学习。图表示学习[3]已经成为过去几年中最流行的数据挖掘主题之一。基于图结构的模型[4,6,20,29]被提出来学习矢量化的节点嵌入,其可以进一步被用于各种图挖掘任务的研究。例如,受word2vec [19]的启发,Perozzi等人[20]开发了创新的DeepWalk,它在图中引入了节点上下文概念(类似于单词上下文),并将图中的一组随机行走(类似于“句子”)馈送给SkipGram,以获得节点嵌入。后来,为了解决图结构的异构性,董等人[4]引入了元路径引导行走,并提出了用于HetG中表示学习的元路径2vec。此外,属性图嵌入模型[14,15,34]已经被提出来利用图结构和节点属性来学习节点嵌入。除了这些方法,已经提出了许多其他方法[1,18,21,28,32],例如通过矩阵分解学习节点嵌入的NetMF [21]和使用对立正则化自动编码器学习节点嵌入的NetRA [32],等等。
图形神经网络。最近,随着深度学习的出现,图形神经网络(GNNs) [5,7,12,16,24,31]得到了很多关注。与以前的图形嵌入模型不同,GNNs背后的关键思想是通过神经网络聚集来自节点本地邻居的特征信息。例如,GraphSAGE [7]使用神经网络,例如д。,LSTM,聚集邻居的特征信息。此外,GAT [31]采用自我注意机制来衡量不同邻居的影响,并结合他们的影响来获得节点嵌入。此外,一些任务相关的方法。用于恶意账户检测的GEM [16]已经被提出来为特定任务获得更好的节点嵌入。
本文介绍了异构图表示学习问题,并提出了一种异构图神经网络模型HetGNN来解决这个问题。HetGNN联合考虑了节点异构内容编码、基于类型的邻居聚合和异构类型组合。在训练阶段,使用图上下文loss和mini-batch梯度下降过程来学习模型参数。对各种图挖掘任务(即链接预测、推荐、节点分类和聚类以及归纳节点分类和聚类)的大量实验表明,HetGNN可以优于现有的方法。