Structure-Aware Transformer for Graph Representation Learning

Structure-Aware Transformer for Graph Representation Learning

在图表示学习中,Transformer结构通过位置编码对图形结构进行编码,克服了GNN的几个局限性,但其使用位置编码生成的节点表示不一定能捕获他们之间的结构相似性,所以,为了解决这个问题,作者提出了Structure-Aware Transformer——一类新的自我关注机制的简单灵活的graph Transformers.

在计算注意力之前,提取扎根于每个节点的子图表示,将提取到的结构信息与原始的自我注意力相结合形成新的自我注意力。

优点:可以利用任何现有的GNN来提取子图表示。

GNN存在的缺点:over-smoothing 和 over-squashing
Absolute encoding:向输入节点特征添加或连接位置或结构表示
relative encoding:该策略将图上节点之间的相对位置或距离的表示直接结合到自我注意力机制中。
作者提出的SAT结合了消息传递GNN和Transformer架构的两个方面的优点。结合了一种绝对编码和一种新的相对编码,这种编码明确的结合了图形结构,从而设计了一种同时考虑本地和全局信息的Transformer架构。
在Transformer中,有两部分组成:a self-attention module and a feed-forward neural network
在self-attention module 中,Structure-Aware Transformer for Graph Representation Learning_第1张图片
在self-attention module 之后是一个skip-connection 和 feed-forward network。他么共同组成了Transformer层:
Structure-Aware Transformer for Graph Representation Learning_第2张图片
Transformer始终为具有相同属性的节点生成相同的表示,而不管他们在图中的位置和周围结构如何,因此,通常需要结构编码将这样的信息合并到Transformer中。
在Transformer中的self-attention能够被重写为 a kernel smoother. kernel是一个被节点特征定义的可训练指数kernel:
Structure-Aware Transformer for Graph Representation Learning_第3张图片
但他仅仅捕获节点对之间的属性相似性。当节点具有相同或相似的特征时,这个kernel smoother并不能过滤结构上与感兴趣的节点不同的节点。

以上是背景信息,下面开始对提出作者的思想:SAT

为了解决上面的kernel smoother的缺点,作者定义了一种结构感知注意力:
Structure-Aware Transformer for Graph Representation Learning_第4张图片
其中:
Structure-Aware Transformer for Graph Representation Learning_第5张图片

这种新的注意力函数能够考虑子图之间的结构相似性。这种自我注意力不再等同与节点的任何排列,而只等同于特征和子图重合的节点。该方法假设没有边属性,但只要结构提取器能够容纳边属性,该方法就可以很容易地合并边属性。
在本文中,作者提出了两种结构提取器:
k-subtree GNN extractor:
Structure-Aware Transformer for Graph Representation Learning_第6张图片

k-subgraph GNN extractor:
Structure-Aware Transformer for Graph Representation Learning_第7张图片
Structure-Aware Transformer for Graph Representation Learning_第8张图片
在结构感知注意力中的子图表示被定制为对节点之间结构相似性的测量,因此如果节点有相似的属性和周围结构,那么就会产生相似的节点级表达。
存在的缺点:SAT的主要局限性是他与Transformer具有相同的缺点,即自我注意力计算的二次复杂性。

你可能感兴趣的:(知识表示学习,数据挖掘,深度学习)