GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)

GNN-FiLM: Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)

ABSTRACT

文章介绍了一种线性特征调制feature-wise linear modulation (FiLM)新的图神经网络(GNN)。多数标准的GNN变体都是基于边的源节点表示通过边来传播信息。在GNN-FiLM, 目标节点的表示也会通过转换被应用到所有传入信息种,从而实现基于特征调制的信息传递。

论文在三个数据集PPI, QM9 和VarMiuse上进行了测试,并在自己机器上和多个baseline(GGNN, R-GCN, R-GAT, R-GIN),进行了比较。结果发现,以往的baseline之间的差别比文献报道要小,尽管如此,GNN-FiLM仍然在在分子图上的回归任务中优于基准方法,并在其他任务上表现出色。

1 INTRODUCTION

从图结构数据中学习的算法,在过去几年中呈现出爆炸式增长,因为图为模拟一系列广泛的具有类似节点的对象和类似边的已知的关系的数据提供了一种便捷的形式。

许多图学习方法都可以被总结为“图信息传递框架” neural message passing (Gilmer et al., 2017): 节点被初使化为一些表征,然后通过对他们的当前状态的转换,作为信息传递给其所有节点实现信息交换。在每个节点处,信息以某种方式聚合,然后用于更新关联节点的表示。在这样一种设置中,传递的信息完全由源节点(和潜在的边类型)所决定,并且不考虑目标节点。一个(稍微偏离一点的)例外是图注意力框架(Velickovic et al., 2018), 在这样的框架中一条边上目标节点的表示和源节点的表示相协调用来计算在“注意力”框架下带有权重的信息。然而,这样的权重会在同时应用于所有维度的信息。

一种简单的观察结果(对于算法)是从源和目标节点对中计算信息。但是,通常用于计算信息的线性层只是通过源节点和目标节点的表征进行简单加和。而复杂的转换方程通常是不现实的,因为GNN中的信息转换方程是占决定作用的。

然而,对于这种不同信息源的并不简单的相互作用的描述需求是神经网络设计中的常见问题。最近的一种趋势是使用超神经网络hypernetworks,使用神经网络计算其他神经网络的权重。在这样一种设计中,两个信号的相互作用是通过使用它们其中之一作为超神经网络的输入,而其他作为计算的神经网络。虽然这是一种很好的做法,它仍然是不太现实的,因为对复杂网络的权重预测计算代价非常高。自然语言处理中有使用改进这种做法的(e.g. Wu et al. 2019),但通常需要很多的领域知识。

一种更普遍的迁移方式是限制计算网络中的结构。最近,特征线性调制“feature-wise linear modulations” (FiLM) 的方法被引入视觉问答VQA领域(Perez et al., 2017)中。在这里,超网络使用一个问题的编码作为输入并且生成一个基于元素的仿射方程。这种在表达力和计算代价上的权衡在许多领域都非常有效,并且在本文的描述中可以发现,它同样适用于图领域。

这篇文章在超网络用于图的应用上进行了探索。Section 2 首先回顾了现在一系列相关工作的图模型。这包含了将一系列现存的描述形式泛化到新的可以描述不同关系的不同边的形式。随后,两种新的形式被引入:一种是Relational Graph Dynamic Convolutional Network (RGDCN), 它使用一个线性层动态计算神经信息传递;另一种是Graph Neural Networks with Feature-wise Linear Modulation (GNN-FiLM), 它同时使用学习到的信息传递方程和动态计算的进行元素级别的仿射转换。在Section 3, 将GNN-FiLM和其它baseline在3个数据集上进行了比较。果发现,以往的baseline之间的差别比文献报道要小, GNN-FiLM在一系列任务上表现出色。

2 MODEL

符号描述:设 L L L 是边类型的有限集,一个有向图可以描述为 G = ( V , E ) G= (V, E) G=(V,E),其中节点是 V V V,边是 E E E

E ⊆ V × L × V , 其中( u , l , v ) ∈ E 若要表示一条边链接 u 和 v 并且边的类型是 l ,就用这样的符号表示 u → l v E\subseteq V\times L\times V,其中(u,l,v)\in E\\ 若要表示一条边链接u和v并且边的类型是l,就用这样的符号表示u\stackrel{l}{\rightarrow} v EV×L×V,其中(ulvE若要表示一条边链接uv并且边的类型是l,就用这样的符号表示ulv

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第1张图片

图神经网络

对于Gated Graph Nerual Network (GGNN) (Li et al., 2016), 使用一个线性层对边计算信息,并使用循环单元(如GRU或者LSTM)计算信息聚合,如下所示:

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第2张图片

可学习的参数为与边类型相关的 W l W_l Wl 和循环神经单元的参数 θ r θ_r θr

在Relational Graph Convolutional Networks (R-GCN) (Schilichtkrull et al., 2018), 门控单元被替代为简单的非线性 σ σ σ (如 hyperbolic tangent),如下所示。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第3张图片

在这里, c v , l c_{v,l} cv,l是一个归一化因子,与以 v v v结束的边类型数目有关。

在Graph Attention Networks (GAT) (Velickovic et al., 2018), 新的节点表征表示是用邻居节点表征的加权求和计算得来的。可以泛化成以下表示(在这里,我们把它称为R-GAT)。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第4张图片

在这里, a l a_l al是可学习的矢量,被用于“注意力”不同维度特征节点表征加权, x ∣ ∣ y x || y x∣∣y 表示 x和y的矢量并列,而表示用过边的softmax计算的权重。可学的参数为 W l 和 a l W_l和a_l Wlal

Graph Isomorphism Networks (GIN) (Xu et al,. 2019) 定义如下所示:
GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第5张图片

同样的,它可以被表述为R-GIN,GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第6张图片
如下所示

现在有很多GNN变体,如上Eq.4中描述代表了现在普遍的趋势。可以发现这些模型,信息都是通过一个节点基于可学习的权重和相应边的表征进行传播。相比之下,只有GGNN, R-GCN, R-GIN, R-GAT对目标节点表征进行了更新。有时候,未命名的GNN变体也被使用(如 Selsam et al. (2019); Paliwal et al. (2019)),它们线性层替换成用在源节点和目标节点表征合并的MLPs中。在本实验中, 统一命名为GNN-MLP, 可定义成如下。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第7张图片
如果MLP为单层,定义为GNN-MLP0。

2.1 Graph Hypernetworks

Hypernetworks超网络(比如多个神经网络计算另一个神经网络的参数)被成功应用于多种任务;自然想到能否用到图网络领域中。

直觉上,超网络是一种高阶函数,比如,它可以被看作计算函数的函数。因此,一个自然的想法是使用信息传播的目标去计算计算信息的函数;因此,使它可以关注在那些和目标节点表征更新有关的特征中。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第8张图片

Relational Graph Dynamic Convolutional Networks (RGDCN)

一种尝试就是将(2)中可学习的信息转换权重矩阵 W l W_l Wl替换成一些可学习的用在目标表征的函数 f f f的输出。

然而如果一个表征的维度是 D D D f f f要产生的矩阵是 D 2 D^2 D2. 因此,如果用一个简单的线性层, f f f的参数数量级在 O ( D 3 ) O(D^3) O(D3),从而在绝大数场景中失效。这种情况可以把表征拆成不同块来执行。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第9张图片

Graph Neural Network with Feature-wise Linear Modulation (GNN-FiLM)

在公式(6)中,信息传递层使用的是基于目标节点表征条件的线性转换,在同一时间关注节点表征不同块。在极端的情况中,这些块的大小为1,这种方法与Perez et al. (2017) 相同,使用基于元素的仿射变换来调制视觉问答设置中的特征图;那种情况下,自然语言的问题作为输入,去计算仿射变换,应用到从图片提取的特征中。

在图的设置中,我们可以使用每个节点的表征作为输入来计算输入信息的元素级别的仿射转换,使得它可以动态地模拟基于边上目标节点当前信息高权重和低权重的特征。这样产生了新的更新规则,使用可学习的方程 g g g来计算仿射变换的参数。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第10张图片

模型中可学习的参数有 θ g , l 和 W l \theta _{g,l} 和W_l θg,lWl。实际中, g g g用一个线性层就很好了。

在使用单层线性层中,结果的信息传递方程是在源节点和目标节点中是一个双线性层的,因为信息是通过计算的,和不同。这样做同样会有一些不足比如使用特定特征预测邻居节点数目,这种情况可以在聚合之前使用非线性层。

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第11张图片

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第12张图片

3 EXPERIMENTAL RESULTS

3.3.1 Protein-Protein Interaction (PPI)

蛋白蛋白相互作用PPI数据集计算结果如下

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第13张图片

3.3.2 Quantum Chemistry (QM9)

量子化学QM9数据集结果比较如下:
GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第14张图片

3.3.3 Variable Usage in Programs (VARMISUSE)

在VARMISUSE数据集结果如下:

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第15张图片

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第16张图片

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第17张图片

GNN-FiLM Graph Neural Networks with Feature-wise Linear Modulation (FiLMConv)_第18张图片

4 DISCUSSION & CONCLUSIONS

在回顾一系列图神经网络结构后, 探索了在图模型中引入超网络结构的做法。这样引入了两个模型,Graph Dynamic Convolutional Networks, GDCN, 和GNN-FiLM。虽然GDCNs的训练非常困难,但结果显示GNN-FiLM在3个任务中都有具有竞争力的表现和提升。

一系列实验还表明,文献中许多结果能从超参数搜索中有更好表现,并且缺少与一系列baseline的比较:

1.Tab. 1中显示 GATs 和 GGNN 或者 R-GCN在PPI任务上并没有优势,并不像原作者Velickovic et al.描述那样;

2.Tab. 3中显示R-GCN比GGNNs在VarMisuse任务上更好,和原作者Allamanis et al.矛盾;

3.GNN-MLP是常见的扩展模型模型,却很少被用作baseline.然而在三个任务上,它都超过了发表在更好刊物的神经网络,比如GGNNs, R-GCNs and GATs, 并且没有明显的运行时间劣势。

VarMisuse任务上更好,和原作者Allamanis et al.矛盾;

3.GNN-MLP是常见的扩展模型模型,却很少被用作baseline.然而在三个任务上,它都超过了发表在更好刊物的神经网络,比如GGNNs, R-GCNs and GATs, 并且没有明显的运行时间劣势。

参考:神经网络特征图计算_GNNFiLM:基于线性特征调制的图神经网络_weixin_39710295的博客-CSDN博客

你可能感兴趣的:(GNN,模型,算法,机器学习,深度学习)