【读文献】Graphormer - Transformer在图表示是否很差

Do Transformers Really Perform Bad for Graph Representation?

模型简称:Graphormer
发表日期:[v5] Wed, 24 Nov 2021
作者:Chengxuan Ying等
机构:Microsoft Research Asia等
Code: https://github.com/Microsoft/Graphormer

摘要

  • 动机:Transformer在很多领域(如CV,NLP)中成为了主流的选择,但在流行的图水平预测排行榜中,与主流的GNN变体相比,Transformer没有表现出具有竞争力的表现。为了探究Transformer在图表示学习中的潜力,作者提出了Graphormer这一方法,证明了Transformer可以在大范围的图表示学习任务中得到很好的效果。
  • 方法:Graphormer。在图中使用Transformer的关键点是将图的结构信息编码到模型中。

方法

输入和预测任务

  • 输入:为一个2D Graph,包含node,edge以及graph的一些特征和属性,可由OGB数据集获取
  • 预测任务:二分类任务,每个小分子(一个小分子就是一张图)对应一个binary label(0或1),label可由OGB数据集提供

模型

  • 在Graphormer中,作者合并了很多的有效的structural encoding methods去充分利用这些信息。

    • Centrality Encoding:获取图结点的重要性,编码结点中心性(node centrality)。centrality使用了degree centrality作为神经网络的额外信号。centrality encoding使用了入度和出度为图的每个结点分配了两个embedding vector作为结点的额外特征,所以模型输入为:在这里插入图片描述
      x i x_i xi为图结点原本的特征, z − z^- z z + z^+ z+为入度和出度的learnable embedding vectors.
    • Spatial Encoding:获取图节点之间的结构关系。对于sequential data,Transformer可以在每个位置上做embedding或者对任意的两个位置的相对距离做embedding,这样就得到了全局感受野(global receptive field)。而对于图来说,结点不可以视作一个sequence。他们可以位于多维的空间中并通过边连接。Spatial Encoding将图中任意两个相连接的结点的最短路径的距离(the distance of the shortest path, SPD)作为一个learnable的标量作为self-attention模块中的bias项。对于结点 v i v_i vi v j v_j vj A i j A_{ij} Aij是self-attention中的Query-key点积矩阵,
      在这里插入图片描述
      相比于原始的Transformer,增加了一个可学习的b,这个b有两个作用:(1) 对于原始的GNN,感受野受到结点邻居的限制,丢失了非邻居的结点的信息。b提供了每个结点可以关注到图中的所有其他结点的全局信息。(2) 每个结点可以通过图的结构信息自适应的关注其他结点。比如如果学习的是SPD的递减函数,则对于每一个结点,它可能更加关注离它近的结点而忽略离它远的结点。
    • Edge Encoding:以往的Edge Encoding只将边的信息传播到与其直接相关的结点上,丢失了那些间接相连的结点的信息。作者提出新的Edge Encoding的方法,找到任意两个结点的最短距离,沿着这条路径做一个learnable embedding,然后将这个embedding与边的特征做点积,最后将这个量作为第二个bias项加入到self-attention模块的 A i j A_{ij} Aij中,见下图中的 c i j c_{ij} cij
      在这里插入图片描述
      这样,注意力中就包含了全局的边信息。
    • Virtual Node(VNode)。与普通的图结点不同,这个虚拟节点可以与图中的所有结点相连。在普通结点的基础上,加上VNode以后可以增强图神经网络的表现。

    下图是对上述三种encoding如何加入Transformer的图解释。
    【读文献】Graphormer - Transformer在图表示是否很差_第1张图片

实验

  • 数据来源:

    • OGB Large-Scale Challenge: Open Graph Benchmark Large-Scale Challenge(OGB-LSC)
    • OGB: Open Graph Benchmark
    • benchmarking-GNN
  • 任务:Graph Property Prediction,输入为graph,输出为property的预测值

    • OGB-LSC quantum chemistry regression challenge(量子化学回归):数据来自于OGB-LSC。具体任务为PCQM4M-LSC,数据量为3.8M graphs。
      【读文献】Graphormer - Transformer在图表示是否很差_第2张图片
  • MolHIV(small) 和 MolPCBA(medium): 数据来自于OGB。任务为分子图属性预测,图分为小分子图和中分子图,MolHIV为小分子图预测,数据量为41127个图;MolPCBA为中分子图预测,数据量为437929个图。图的node代表原子,egde代表化学键。
    【读文献】Graphormer - Transformer在图表示是否很差_第3张图片

"FLAG"是图数据增强的一种方法(Kezhi Kong, et al.)。

  • ZINC:数据来自于Benchmarking-GNN。数据量12000个图。
    【读文献】Graphormer - Transformer在图表示是否很差_第4张图片

总结

  1. 这篇论文主要介绍的是模型的结构以及graph到embedding的转换,没有涉及如何将序列编码为graph的操作。不能直接用于蛋白质预测。
  2. 这篇文章提出了Graphormer,用Transformer配合图的信息。该模型提出了三个新的图编码方式,可以将图的结构信息编码到Transformer模型中。Graphormer的亮点是将图的全局信息编码到模型中去,获得了global receptive field。实验证明该模型在图属性预测任务中表现好于其他GNN的variant。
  3. 图预测任务的公开数据集:
    (1)OGB-LSC: Open Graph Benchmark Large-Scale Challenge, arXiv:2103.09430
    (2)OGB:Open Graph Benchmark,arXiv:2005.00687
    (3)Benchmarking-GNN:t arXiv:2003.00982

你可能感兴趣的:(#文献,ai,transformer,机器学习,人工智能)