知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第1张图片
题目: Heterogeneous Graph Transformer
论文链接: https://arxiv.org/abs/2003.01332
代码链接:https://github.com/acbull/pyHGT

论文

  • 异构图研究之一: 使用元路径来建模异构结构
    heterogeneous graphs 《Mining Heterogeneous Information Networks:
    Principles and Methodologies》 2012 Morgan & Claypool Publishers.
    PathSim 《Meta path-based top-k similarity search in heterogeneous information networks.》 VLDB ’11.
    metapath2vec 《Stochastic Training of Graph Convolutional Networks with Variance Reduction. 》2018 ICML

  • 异构图研究之二: 使用GCN
    《Heterogeneous Graph Attention Network》 WWW 2019 400次引用
    《Modeling Relational Data with Graph Convolutional Networks》 1400次引用 ESWC’2018.
    《Heterogeneous Graph Neural Network》19
    《Graph Transformer Networks》19

  • 取样方法(基于GNN的)
    GraphSage [7], FastGCN [1], and LADIES [29];以及本文的HGSampling

  • 异构图的研究(节点分类、聚类、排序和表示)
    《metapath2vec:Scalable Representation Learning for Heterogeneous Networks》2017
    《Mining Heterogeneous Information Networks: Principles and Methodologies.》2012
    《Pathsim:Meta path-based top-k similarity search in heterogeneous information networks.》VLDB 11
    《Integrating meta-path selection with user-guided object clustering in heterogeneous information networks》KDD 12

想法

  • 什么是动态依赖关系?
  • ATT是指的multi-head! 同一个头节点的多个头!
  • MSG是传递消息的缩写
  • softmax是在计算multi-head的权重时候的softmax

创新

第一,我们不设置元路径; 第二,用边和点相关的参数来计算权重从而维护点和边的表示(每个关系独立的特征和共享的平衡); 第三,考虑动态特征; 第四,可以扩展到web规模;

摘要

难点
GNN对结构化数据的表示是很有效的,但是是在同构图上的
我们

  • 模型方面: 异构图上,节点和边的类型都是不一样的! 为了这种异构性建模,首先,我们设计了与节点和边类型相关的参数来描述每条边上的异质注意力,使HGT能够对不同类型的节点和边保持专门的表示。其次,考虑到动态异构图,我们在HGT中添加了相对时间编码,它能够捕获任意持续时间的动态结构依赖关系
  • 取样方式:为了处理web-scale graph,我们设计了异构mini-batch 图采样算法–HGSampling

Introduction

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第2张图片

图1中的Open Academic Graph (OAG)[28]包含五种类型的节点:论文、作者、机构、场所(期刊、会议或预印本)和字段,以及它们之间不同类型的关系。 而且这种关系就是meta-path。

难点—详解

经典范例之一是定义和使用元路径来建模异构结构,如PathSim,metapath2vec; 范例二是GNNs的火爆,利用GNNs和异构网络进行学习。如R-GCNs、HetG、GTNs、 HAN

但是以前的网络有些存在着下面的问题:

第一,构建这种异构图中的meta-path常常需要专业领域的知识,比如上面的OAG图,如果你不是学术圈的,恐怕不知道作者、机构、paper等的关系!

第二,它们要么简单地假设不同类型的节点/边共享相同的特征和表示空间(使用相同的映射函数),要么单独对节点类型或边类型保持不同的非共享权值,使得它们不足以捕获异构图的性质;

第三,它们大多忽略了每个(异构)图的动态特征;

最后,它们的内在设计和实现使得它们无法对web规模的异构图进行建模。

我们以OAG为例,讲解一下为什么异构图难以学习。 如OAG的节点和边缘可能有不同的特征分布,比如论文是文本特征,机构是附属学者特征等。 而且OAG有时效性,比如出版物的数量会变化,而且每年的论文关注点也不同,趋势不同。 使得现有的异构gnn无法进行可伸缩处理。

我们方法—详解
上面的缺点就是我们的优点: 第一,我们不设置元路径; 第二,用边和点相关的参数来计算权重从而维护点和边的表示; 第三,考虑动态特征; 第四,可以扩展到web规模;

  1. HGT中并不是将每条边参数化,也就是向量化,而是将三元组分解成单独的个体(e、h、t),然后利用这些meta-relation来计算注意力参数化权重矩阵。 这样,不同类型的nodes和edges都保存了自己的表示空间,也能表示之间的关系。
    其次,不同类型的的nodes可以interact、pass和aggregate 信息。

    这样的好处就是HGT提取节点和边中包含了高阶信息,同时仅仅只需要一个items的one-hop edges作为输入,而不是手动设计,注意力机制会帮我们考虑哪条边重要或者不重要

  2. 为了提取图的动态特征,我们提出相对时间编码(RTE)策略来增强HGT。与将输入图分割成不同的时间戳不同,我们建议将发生在不同时间的所有边作为一个整体进行维护。任何持续长度的结构性时间依赖性,甚至是不可见的和未来的时间戳。
    通过端到端训练,RTE使HGT能够自动学习异构图的时间依赖性和演化。

  3. 为了处理web-scale graph,我们设计了HGSampling —为了mini-batch的GNN训练。 该取样方法就是构建一个不同节点类型都均衡的子图,因为现有的基于GNN的方法, GraphSage [7], FastGCN [1], and LADIES [29], 都会造成节点和边的类型高度不均衡。 同时在取样的时候,也要保持信息的不丢失。 该方法可以用在所有的GNN模型,这样就可以训练和推断任意大小的异构图。

数据集: Web-scale Open Academic Graph(这是迄今为止在异构图上进行的规模最大、跨度最长的表示学习); 还有计算机、医学学术图上都表明了HGT的有效性。
我们进一步进行了案例研究,表明该方法确实能够自动捕获隐式元路径对不同任务的重要性

2 PRELIMINARIES AND RELATED WORK

介绍heterogeneous graphs with network dynamics,并回顾图神经网络及其异构变体,同时我们也强调了HGT和异构图神经网络的不同点。

2.1 Heterogeneous Graph Mining

异构图是许多现实世界复杂系统的关系数据建模的重要抽象。正式定义为:
Definition 1.Heterogeneous Graph: 与普通的同构的多了两个函数,用来映射nodes和edges的类型。 G = ( V , E , A , R ) G=(\mathcal{V}, \mathcal{E}, \mathcal{A}, \mathcal{R}) G=(V,E,A,R),其中前两项不用,后两项是类型集合。 映射函数是:

Meta Relation
对于边 e = ( s , t ) e=(s,t) e=(s,t),, 它的meta relation被表示为 ⟨ τ ( s ) , ϕ ( e ) , τ ( t ) ⟩ \langle\tau(s), \phi(e), \tau(t)\rangle τ(s),ϕ(e),τ(t) ϕ ( e ) − 1 \phi(e)^{-1} ϕ(e)1表明是 ϕ ( e ) \phi(e) ϕ(e)的逆,经典的元路径范式[17-19]被定义为这种元关系的序列。

这里需要注意,为什么需要 τ 和 ϕ \tau和\phi τϕ函数,这是不同类型的nodes之间可能有不同的relations。比如Author和Paper之间可以是第一作者也可以是第二或者是第三作者。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第3张图片

Dynamic Heterogeneous Graph
对真实世界(异构)图的动态特性进行建模,当node s在 T T T上联系node t时,我们为一条边 e = ( s , t ) e=(s,t) e=(s,t)分配一个时间戳 T T T,如果 s s s第一次出现, T T T也会被分配给 s s s。 如果它随时间建立连接,则 s s s可以与多个时间戳关联。

假定边的时间戳是不变的,表示该边创建的时间。但是可以给节点分配不同的时间戳。
比如: 一篇paper在发表时,是有时间的,而是是不变的; 但是WWW会议则是由不同的时间戳的,每年都会举办。

2.2 Graph Neural Networks

现在的GNN可以将输入图结构作为计算图来进行信息的传递、聚合本地邻居信息以获得更上下文相关的表示。形式上,它有以下形式:

Definition 2.General GNN Framework:
我们假定 H l [ t ] H^l[t] Hl[t]是节点t再 ( l ) (l) (l)-th GNN层的结点表示,从 ( l − 1 ) (l-1) (l1)-th到 ( l ) (l) (l)-th更新步骤如下:
在这里插入图片描述

其中 N ( t ) N(t) N(t)表明了node t t t的sources nodes和 E ( s , t ) E(s,t) E(s,t)表明从节点 s s s t t t的边。
其中最重要的操作是Extract(·)和Aggregate(·),前者代表邻居信息提取器,它从上一层的源节点、目标节点分别提取信息,以及两个nodes作为查询的边 e e e。 Aggregate操作则是聚集了源节点的邻居信息, 同时也可以设计更复杂的池化和规范化函数。

GCN、GraphSAGE、GAT(添加了注意力机制)

2.3 Heterogeneous GNNs

原来的方法只是单独的使用node或者是edge来决定GNN的权重矩阵,然而,不同类型的节点或边缘计数可能有很大差异。对于没有足够频繁出现的关系,很难学习精确的特定关系权重。

为了解决这个问题,我们考虑参数共享以更好地泛化。对于边 e = ( s , t ) e=(s,t) e=(s,t),, 它的meta relation被表示为 ⟨ τ ( s ) , ϕ ( e ) , τ ( t ) ⟩ \langle\tau(s), \phi(e), \tau(t)\rangle τ(s),ϕ(e),τ(t),如果我们在元关系中建立相应的元素 τ ( s ) \tau(s) τ(s), ϕ ( e ) \phi(e) ϕ(e), τ ( t ) \tau(t) τ(t), 那么大部分权重可以共享。

比如: 第一作者和第二作者的关系,他们的源节点和目标节点都是authorpaper,也就是说从一个关系学习到的关于authorpaper的知识在用到另一个关系(同一个源和目标节点)上时,会很快的适应。 我们和强大的Transformer-like注意力机制聚合,提出了Heterogeneous Graph Transformer.

我们的创新点在于:
(1)根据上面的描述,我们会根据meta-relation来分解交互和变换矩阵,使得HGT能够捕获不同关系的common和specific关系。(相同关系的nodes会共享权重)
(2)自动学习隐式元路径的重要性
(3)动态性

3 HETEROGENEOUS GRAPH TRANSFORMER

利用meta-relation来求得可以共享的参数,消息传递和传播。 同时添加了相对时间编码机制。
如果不懂自注意力的,请看这篇博客

3.1 Overall HGT Architecture

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第4张图片

HGT的目标是聚合来自源节点的信息,以获得目标节点的上下文化表示

3.2 Heterogeneous Mutual Attention(通过Q·K计算attention,同时变化矩阵添加了类型!同时根据关系计算multi-head的softmax)

这里用的是Transformer的方法,不懂可以去补补, 这里计算的是一个GCN层的,所以可以把(l-1)层和接下来的第i个head也去掉,这样看起来方便一点


3.2.1 普通的GNNs

第一个步骤就是计算source s和target节点t的相互注意力,我们给出了一个简单的介绍attention-based GNNs的大概:

在这里插入图片描述
Attention: 使用target node的Qsource的K来获得注意力; Message:也就是source node s的V,存储的是原有信息; Aggregate:通过注意力权重来聚合。 当然聚合之前最好有个softmax来使得权重均衡

比如GAT就是使用了注意力机制,使用了相同的权重来计算Message,并利用简单平均值,然后对aggregate步骤进行非线性激活。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第5张图片
虽然GAT获取重要nodes的注意力值是很有效的,但是它认为s和t通过使用权重矩阵W是相同的特征分布,这是不好的。

而我们是会根据meta-relation的不同而计算node相互的attention。


3.2.2 补充:Transformer

单head:
知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第6张图片

这里需要注意的是第一步算出来的权重需要经过softmax归一化一下! α 1 , i \alpha_{1,i} α1,i是节点i对节点1的注意力权重。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第7张图片

multi-head的意思是多个特征:
知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第8张图片

上面的描述都是普通Transformer中的自注意力机制,也就是将targe t节点t映射为Query vectorsource s都映射到成Key vector,然后计算他们的dot product来作为attention!


3.2.3 我们的multi-head Transformer+GNNs

普通的Transformer和我们的设计的模型不同之处就是Transformer中对所有单词使用一组投影(也就是在计算Q、K、V时使用的W矩阵)每个元关系(也就是t、s1、s2等等和e)应该有一组(注意是一组,每个元关系是一组)不同的投影权重,而且这里的是类型权重

1. 首先将普通的权重改为类型参数权重
但是不同的投影权重也不是不好的,占有内存大,泛化能力不好! 为了达到既能保证不同关系的独特特征,又能最大化共享参数的效果,我们提出将权重矩阵参数化为源节点投影、边投影和目标节点投影(也就是前面说的一组权重),而且我们根据节点和边的类型来计算权重

2. 再次是multi-head:

具体而言我们为每个边 e = ( s , t ) e=(s,t) e=(s,t)计算 h h h-head注意力,而且是mult-head的softmax:
知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第9张图片

我们根据图来,解释上面的式子:

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第10张图片

输出: attention

  1. 首先, 对于 i i i-th的注意力头 A T T − h e a d i ( s , e , t ) ATT-head^i(s, e, t) ATTheadi(s,e,t),我们使用一个线性折射 K K K-Linear,这意味着每种类型的节点都有一个唯一的线性投影,以最大限度地模拟分布差异; 同样的,我们可以得到Query Vector;

  2. 其次,计算每个头的注意力(每组元关系),在Transformer中是Att-head = K· Q ,然鹅这里我们先用线性映射 Q − L i n e a r τ ( t ) i \mathrm {Q-Linear}_{\tau(t)}^i QLinearτ(t)i来映射目标节点 t t t类型作为 i i i-th的Query向量, 同时使用线性映射 K − L i n e a r τ ( s 1 ) i \mathrm {K-Linear}_{\tau(s_1)}^i KLinearτ(s1)i K − L i n e a r τ ( s 2 ) i \mathrm {K-Linear}_{\tau(s_2)}^i KLinearτ(s2)i得到尾结点的第 i i i-th头的Key向量。 之后使用meta-relation的权重映射 W ϕ e 1 A T T W_{\phi_{e_1}}^{ATT} Wϕe1ATT,来聚合K和Q。 也就是:
    在这里插入图片描述

    其中 W ϕ e 1 A T T W_{\phi_{e_1}}^{ATT} Wϕe1ATT可以捕获相同节点类型对的语义关系! 异构图的一个独特特征是,在一个节点类型对之间可能存在不同的边类型(关系)也就是, τ ( s ) 和 τ ( t ) \tau(s)和\tau(t) τ(s)τ(t),因此,与直接计算Query和Key向量之间的点积的普通Transformer不同,我们为每个边类型 ϕ ( e ) \phi(e) ϕ(e)保留了一个不同的基于边的矩阵 W ϕ ( e ) A T T ∈ R d h × d h W_{\phi(e)}^{A T T} \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}} Wϕ(e)ATTRhd×hd。在这样做的过程中,模型可以捕获相同节点类型对的语义关系。

    此外,由于不是所有的关系对目标节点的贡献都是相等的,我们添加了一个先验张量 μ ∈ R ∣ A ∣ × ∣ R ∣ × ∣ A ∣ \mu \in \mathbb{R}^{|\mathcal{A}| \times|\mathcal{R}| \times|\mathcal{A}|} μRA×R×A表示每个元关系三元组的一般意义,作为注意力的自适应缩放。

  3. 最后,我们将 h h h个注意头concat连接在一起,得到每个节点对的注意向量。然后,对于每个目标节点 t t t,我们从它的邻居 N ( t ) N(t) N(t)聚集所有的注意力向量,然后进行softmax,使得它满足 ∑ ∀ s ∈ N ( t )  Attention  H G T ( s , e , t ) = 1 h × 1 \sum_{\forall s \in N(t)} \text { Attention }_{H G T}(s, e, t)=\mathbf{1}_{h \times 1} sN(t) Attention HGT(s,e,t)=1h×1

3.3 Heterogeneous Message Passing(也就是V的计算,但是会考虑类型的计算,同时根据关系计算multi-head)

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第11张图片

我们看图,得到看到:
输出: Message!

计算注意力之外,我们也会将信息从源节点传递到目标节点(见图2(2))。与注意过程类似,我们希望将边的元关系融入到消息传递过程中,以缓解不同类型节点和边的分布差异。对于一对节点 e = ( s , t ) e=(s,t) e=(s,t),我们计算它的multi-head Message 通过:
知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第12张图片

  1. 经过矩阵! 为了得到 i i i -th信息头 M S G − h e a d i ( s , e , t ) MSG-head ^{i}(s, e, t) MSGheadi(s,e,t) , 我们首先映射 τ ( s ) \tau(s) τ(s)-type的源node s为 i i i-th信息向量用一个线性映射 M − L i n e a r τ ( s ) i : R d → R d h M-Linear _{\tau(s)}^{i}: \mathbb{R}^{d} \rightarrow \mathbb{R} \frac{d}{h} MLinearτ(s)i:RdRhd

  2. 它后面跟着一个矩阵 W ϕ ( e ) M S G ∈ R d h × d h W_{\phi(e)}^{M S G} \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}} Wϕ(e)MSGRhd×hd来包含边的依赖。

  3. 最后一步是concat所有的 h h h信息头来为每个节点对得到 M e s s a g e H G T ( s , e , t ) Message _{H G T}(s, e, t) MessageHGT(s,e,t)

3.4 Target-Specific Aggregation

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第13张图片

计算出异构 multi-head attention 和 message calculated,后,我们需要将它们从源节点聚合到目标节点(见图2(3))。同时我们可以将attention经过softmax归一化,因此,我们可以简单地使用注意向量作为权重,对来自源节点的相应消息进行平均,得到更新后的向量 H ~ ( l ) [ t ] \tilde{H}^{(l)}[t] H~(l)[t]为:
在这里插入图片描述
它将来自不同特征分布的所有邻居(源节点)的信息聚合到目标节点 t t t

最后的目标就是将目标节点 t ′ t' t的向量映射为 type-specific的分布,按节点类型索引 τ ( t ) \tau{(t)} τ(t),为此我们应用线性投影A-Linear τ ( t ) _{\tau(t)} τ(t)来更新向量 H ~ ( l ) [ t ] \tilde{H}^{(l)}[t] H~(l)[t]在残差连接后作为(看上面的图):
在这里插入图片描述

这样我们就得到了对于目标节点 t t t ( l − 1 ) − t h (l-1)-th l1th的HGT层的输出 H ( l ) [ t ] H^{(l)}[t] H(l)[t]

这样的操作进行L次(L层),那么我们就能够得到每个节点的包含了高度上下文的 H ( L ) H^{(L)} H(L)。可输入任意模型进行下游异构网络任务,如节点分类、链路预测等。

通过整个结构,我们高度依赖于 meta-relation- ⟨ τ ( s ) , ϕ ( e ) , τ ( t ) ⟩ \left \langle \tau( s ),\phi (e), \tau (t) \right \rangle τ(s),ϕ(e),τ(t),将权重矩阵单独参数化。 与普通的Transformer相比,这样的参数共享有利于快速的自适应和泛化。另一方面,通过使用更小的参数集,不同关系的运算符仍然可以保持其特定的特征。

3.5 Relative Temporal Encoding

我们提出了HGT结构,接下来,我们介绍了相对时间编码(RTE)技术的HGT处理图的动态。

整合时间信息的传统的方式是为每个time slot创建一个单独的图。然鹅time slots之间是有关系的。因此,建模动态图的正确方法是维护所有发生在不同时间的边,并允许具有不同时间戳的节点和边相互交互

RTE的灵感来自Transformer的位置编码方法[15,21],该方法已经成功地捕捉了长文本中单词的顺序依赖关系。

具体而言,给定一个source node s和 target node t,以及它们相应的timestamps T ( s ) T(s) T(s) T ( t ) T(t) T(t),我们表明了相对时间gap △ T ( t , s ) = T ( t ) − T ( s ) \bigtriangleup T(t,s)=T(t)-T(s) T(t,s)=T(t)T(s)。注意训练数据集将不能弥补所有可能的时间差距,因此RET应该具有能够归纳出看不见的时间和时间间隔。因此,我们采用固定的正弦函数集作为基,具有可调谐的线性投影T-Linear ∗ ^* 为RTE:

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第14张图片
最后,将相对于目标节点 t t t的时间编码添加到源节点 s ′ s' s的表示中,如下所示:

在这里插入图片描述
这样,时间增广表示 H ^ ( l − 1 ) \hat{H}^{(l-1)} H^(l1)将捕获源节点s和目标节点t的相对时间信息。RTE过程如图3所示。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第15张图片

4 WEB-SCALE HGT TRAINING

在本节中,我们提出了HGT的策略来训练Webscale具有动态信息的异构图,包括一种高效的异构迷你批图采样算法——HGSampling——和一种归纳时间戳分配方法。

4.1 HGSampling

full-batch的GNN训练需要每个层的全部节点表示,这是不适合Web-scale图。 为了解决这个问题,对于异构图直接使用它们,由于每种类型的度分布和节点总数可能发生巨大变化,容易得到关于不同节点类型的极不平衡的子图

为了解决这一问题,我们提出了一种高效的异构小批图采样算法——HGSampling,使HGT和传统gnn都能处理web规模的异构图。HGSampling能够
1)保持每种类型节点和边的数量相似
2)保持采样子图的稠密,以最小化信息损失,降低样本方差。

算法1概述了HGSampling算法。其基本思想是对每个节点类型 τ \tau τ保持一个独立的节点budget B [ τ ] B[\tau] B[τ],并使用重要抽样策略对每个类型采样相同数量的节点以减少方差。给定已经抽样的结点 t t t,我们使用算法2将其所有的直接邻居加入到相应的预算中,并在第8行中将 t ′ t' t的归一化程度加到这些邻居中,然后用这个来计算抽样概率。这种归一化相当于将每个采样节点的随机漫步概率累积到其邻域,避免了采样被高度节点主导。从直观上看,该值越大,候选节点与当前采样节点的关联程度越高,因此被采样的概率也就越大。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第16张图片

在预算更新后,我们在算法1第9行中计算抽样概率,其中我们计算每个预算中每个节点 s s s的累计归一化程度的平方。

如[29]所证明的,使用这样的抽样概率可以减小抽样方差。然后,在type τ \tau τ中利用计算概率采样 n n n个节点,将其加入输出节点集,将其邻域更新到预算中,并在第12-15行中将其从预算中删除。对 L L L times重复这样的过程,我们从初始节点得到一个具有 L L L depth的抽样子图。

最后,重构采样节点之间的邻接矩阵。通过上述算法,采样后的子图每类型包含相似数量的节点(基于独立节点预算),且足够密集以减小采样方差(基于归一化程度和重要性采样),适合于在web尺度的异构图上训练gnn。

4.2 Inductive Timestamp Assignment

到目前为止,我们假设每个节点 t t t都有一个时间戳 T ( t ) T(t) T(t)。然而,在真实的异构图中,许多节点并不与固定的时间相关联。因此,我们需要给它分配不同的时间戳。我们将这些节点表示为普通节点。例如,1974年和2019年的WWW大会,这两年的WWW节点的研究课题有很大的不同。因此,我们需要决定将哪个时间戳附加到WWW节点。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第17张图片

异构图中还存在事件节点,它们具有与之关联的显式时间戳。例如,论文节点应该与其发布行为相关联,并因此附加到其发布日期。我们提出一种归纳时间戳分配算法,根据普通节点所链接的事件节点来分配时间戳。算法如算法2第6行所示。其思想是计划节点从事件节点继承时间戳。我们检查候选源节点是否为事件节点。如果是,比如在特定年份发表的一篇论文,我们保留它的时间戳以获取时间依赖性。如果不是,比如一个可以与任何时间戳关联的会议,我们归纳地将关联节点的时间戳(比如其论文发表的年份)分配给这个普通节点。通过这种方法,我们可以在子图采样过程中自适应地分配时间戳。

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第18张图片

5 EVALUATION

在本节中,我们评估提出的异构图转换器在三个异构学术图数据集。我们进行了论文场预测、论文地点预测和作者消歧任务。我们还通过案例研究来演示HGT如何自动学习和提取对下游任务很重要的元路径。

5.1 Web-Scale Datasets

OAG作为实验基础。
在这里插入图片描述

5.2 Experimental Setup

测试目的:
L1: Paper-Field
L2: Paper-Field
Paper-Venue
前三个节点分类的任务就是分别预测每个paper是否属于正确的L1、L2和Paper-Venue;
为了消除歧义,我们选择使用所有同名的作者及其相关论文,任务是进行这些论文和候选作者之间的联系预测。

实验设置:
对于所有任务,我们使用2015年之前发表的论文作为训练集,2015 - 2016年发表的论文作为验证集,2016 - 2019年发表的论文作为测试集。我们选择NDCG和MRR这两个被广泛采用的排名指标作为评价指标。对所有模型进行了5次训练,并报告了测试性能的平均值和标准方差。

第一类GNNbaselines是为同构图设计的:
GCN和GAT;

第二类是几个专用的异构GNN为基线,包括:
RGCN、HetGNN、HAN

消融实验:异质性权重参数化(Heter)和相对时间编码(RTE)

我们对所有基线gnn使用第4节中提出的HGSampling算法来处理大规模的OAG图。为了避免数据泄漏,我们从子图中删除了我们打算预测的链接(例如,作为标签的Paper-Field链接)。

Input Features
我们没有假设每个节点类型属于相同的分布,所以我们可以自由地使用最合适的特征来表示每个节点类型。

对于每篇论文,我们使用预先训练的XLNet来获得标题中国的每个单词的表示,然后h用每个词的注意力加权平均它们,得到每篇论文的标题表示,每个作者最初的特征只是他/她发表的论文陈述的平均值。

对于场地、场地和研究所的节点,我们使用metapath2vec模型[3],通过反映异构网络结构来训练它们的节点嵌入。

同质GNN基线假设节点特征属于同一分布,而我们的特征提取不满足这一假设。为了进行公平的比较,我们在输入特征和所有使用的GNN之间添加了一个自适应层,该自适应层只是对不同类型的节点进行不同的线性投影这种方法可以看作是将异构数据映射到同一分布

Implementation Details
hidden dimension: 256
multi-head: 8
GNNs: 3 layers 每个网络的感受野相同
optimizer: AdamW with Cosine Annealing Learning Rate Scheduler
200 epochs,并选择最低的验证loss作为要报道的模型;
我们使用GNN文献中使用的默认参数,不调优超参数。

5.3 Experimental Results

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第19张图片
HGT具有更少的参数和可比的批处理时间。这表明,通过根据异构边缘的元关系模式建模,我们能够以更少的资源消耗获得更好的泛化。

Ablation Study. HGT的核心部分是异质性权重参数化(Heter)和相对时间编码(RTE)。为了进一步分析它们的影响,我们进行了消融研究,将它们从HGT中移除

5.4 Case Study

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第20张图片

为了进一步评估相对时间编码(RTE)如何帮助HGT捕捉图的动态,我们进行了一个展示会议主题演变的案例研究

我们选择100个被引用次数最高的计算机科学会议,将其划分为2000年、2010年和2020年三个不同的时间戳,并构建由它们初始化的子图。利用训练过的HGT,我们可以得到这些会议的表示,并据此计算它们之间的欧氏距离

对于每一个会议,我们挑选出最相似的5个会议(即欧几里得距离最小的会议),以显示会议的主题是如何随着时间的推移而演变的

5.5 Visualize Meta Relation Attention

知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer_第21张图片
为了说明合并后的元关系模式如何使异构消息传递过程受益,我们选择了在前两个HGT层中具有最大关注值的模式,并在图5中绘制了元关系关注层次树。例如,要计算一篇论文的表现形式,

在这里插入图片描述
是三个最重要的元关系序列,这些可以分别归为meta paths PVP、PFP和IAP。这些元路径及其重要性无需手动设计就可以从数据中自动学习。右边显示了另一个计算作者节点表示的例子。这样的可视化显示,异构图转换器能够隐式学习为特定的下游任务构建重要的元路径,而无需手动定制。

你可能感兴趣的:(知识图谱,知识图谱论文阅读,transformer,知识图谱,深度学习)