A Generalization of Transformer Networks to Graphs 论文阅读笔记

Task

使用transformer去处理图结构数据。

Motivation

图数据拥有两个特性:(1)稀疏性。(2) 结点间有拓扑关系。这两个特性对于图来说非常重要,但是在利用transformer去处理图数据时,由于在任意两个结点之间建立了联系,因此可以说忽略了图的稀疏性和拓扑关系这两个特性,因此作者想设计一种基于图的transformer,在保留图的特性的时候,依旧能够利用transformer去处理。

Method

A Generalization of Transformer Networks to Graphs 论文阅读笔记_第1张图片整个网络的结果如上图所示,其中图左边描述的是不加入边信息的transformer结构,右边是加入了边的特征信息的transformer结构。

网络的输入是node和edge的embeddings信息,然后做了一个线性映射,如下所示:

 对于节点的PE编码,由邻接矩阵的奇异值分解之后的特征向量来表示,同样对输入的特征向量做了一个线性映射:

接下来是Graph Transformer Layer,先是一个self-attention,再进行多头拼接,输出的结果传到FFN,再进行残差连接和LN 。右边的图加入了边的特征,如上图所示,它把两个node的之间的edge信息也加入到attention的计算中。最后计算的结果除了包含有结点的特征信息,还包含有边的特征信息。

Analysis and Discussion

本文主要展示了一种把transformer推广到任意的图的简单且有效的方法,并展示了两种模型的结构。用拉普拉斯特征向量作为PE和把LN用BN代替,使模型学习能力得到增强。稀疏图连通性对于具有任意图结构的数据集来说是一个关键的归纳偏差,通过比较稀疏图与全图实验可以证明。

A Generalization of Transformer Networks to Graphs 论文阅读笔记_第2张图片

 

Reference

[1] Dwivedi, Vijay Prakash, and Xavier Bresson. "A generalization of transformer networks to graphs." arXiv preprint arXiv:2012.09699 (2020).

[2] https://blog.csdn.net/chen_wangaa/article/details/113361075

github https://github.com/graphdeeplearning/graphtransformer

你可能感兴趣的:(论文阅读,transformer,人工智能,深度学习)