图神经网络(GNN)已成为分析和学习图数据的标准工具包。 随着领域的发展,确定关键架构并验证可推广到更大,更复杂的数据集的新思路变得至关重要。 不幸的是,在缺乏具有一致实验设置的标准化基准的情况下,评估新模型的有效性变得越来越困难。 在本文中,我们介绍了一个可重现的GNN基准框架2,为研究人员提供了方便地为任意数据集添加新模型的便利。 我们通过对最近的Weisfeiler-Lehman GNN(WL-GNN)进行有原则的调查来证明我们框架的有用性,并将其与基于消息传递的图卷积网络(GCN)进行比较,以完成各种图任务,即图回归/分类和节点 / link预测,具有中等规模的数据集。
在过去的几年中,图神经网络(GNN)引起了人们的极大兴趣,正在为包括化学[25,31],物理学[20,73],社会科学[44,65]在内的众多领域开发有前途的方法 ],知识图[76、16],推荐[64、91]和神经科学[32]。
历史上,已经开发了三类GNN。 第一个模型[75、14、22、78、44、33]旨在将原始卷积神经网络[49、50]扩展到图形。 第二类通过对图形[69]的各向异性操作来增强原始模型,例如注意力和选通机制[8、57、63、80、11]。 最近的第三堂课引入了GNN,这些GNN改善了先前模型的理论局限性[89、66、58、18、67、77]。 具体来说,前两类只能区分简单的非同构图,而不能分离自构节点。
开发功能强大且在理论上具有表现力的GNN架构是对图机机器学习的实际应用和实际采用的关键关注点。 但是,由于大多数模型是在小型数据集(例如Cora,Citeseer和TU)上评估的,因此跟踪最新进展一直是一项挑战,这些数据集不适用于区分复杂,简单和不可知图论的架构[35,17],并且对 统一的实验设置[26,87]。
因此,我们的动机是对GNN进行基准测试,以识别和量化当我们转向更大,更具挑战性的数据集时,哪些类型的体系结构,首要原理或机制是通用的,可推广的和可扩展的。 基准测试为回答这些问题提供了强大的范例基本问题。 事实证明,它对推动进步,确定基本思想以及解决多个科学领域的特定领域的问题都是有益的[86]。 最近,著名的2012 ImageNet挑战[24]提供了引发深度学习革命的基准数据集[48,55]。 然而,设计成功的基准测试极具挑战性,因为它既需要一个具有严格实验设置的编码框架以进行公平的比较,同时又可重现,并且需要使用可以统计地分离模型性能的适当数据集。
基准缺乏一直是GNN文献中的一个主要问题,因为上述要求尚未得到严格执行。
这项工作的主要贡献是设计了一个基准基础架构,可以公平地评估中等规模数据集上的GNN架构。 具体而言,编码基础结构可用于从最流行和理论上设计的GNN类中实现新的GNN,并以严格的方式比较它们的性能。 对于术语,我们将流行的消息传递GNN称为图卷积网络(GCN),并将理论上表示性的GNN称为Weisfeiler-Lehman GNN(WL-GNN),请参见第2.2节。 我们广泛的数值实验的主要发现在第4节中进行了介绍,并总结如下:•消息传递GCN [44、33、63、80、11]能够更好地利用深度学习的基本构建模块,例如批处理, 残差连接和归一化,在本文考虑的7个数据集上优于理论设计的WL-GNN [89,58,18]。
•从理论上设计的WL-GNN(例如[58、18])在时间/空间复杂性方面是令人望而却步的,并且不适合分批训练,这表明需要对这些模型进行其他开发以在实际任务上与GCN竞争。 相反,GCN依赖于稀疏矩阵计算,这在计算和存储效率上都是有效的。
•总体而言,利用注意力[80]和选通[11]机制的各向异性GCN在图,节点和边缘级任务上的性能始终如一,在7个数据集中的5个数据集上,优于各向异性GCN。 此外,对于链接预测任务,在消息传递过程中,将边缘的学习功能用作事件节点的联合表示可大大提高性能。 他们一致的结果表明,需要进一步分析各向异性模型的表达能力。
•使用Laplacian特征向量的图形位置编码[9]是一种出色的方法,可以克服GCN的低结构表达性的理论限制[67,77],并且可以在没有位置信息的情况下提高4个数据集中的3个数据集的性能。
我们的基准测试框架和中等规模的数据集通过GitHub开源,使研究人员能够无缝地探索图形表示学习中的新思想并跟踪GNN架构的进展。
2.1编码基础架构
要设计成功的基准,就需要一个模块化的编码框架,该编码框架在实验上非常严格并且可重现以进行公平比较。 但是,有关GNN的最新文献在培训,验证和测试拆分以及评估协议方面尚未达成共识,因此比较新概念和体系结构的性能是不公平的[26]。 此外,不同的超参数,损失函数和学习率进度表使得难以确定架构的新进展。 还不清楚如何在图形上执行良好的数据拆分,而不是随机拆分,众所周知,随机拆分会提供过度乐观的预测[53]。 考虑到GNN评估程序的异质性,非常需要一个统一的实验环境。
我们的基准测试基础设施建立在PyTorch [68]和DGL [85]之上,并具有以下基本目标:(a)易于使用和模块化,使新用户能够试验和研究GNN的构建模块; (b)所有被基准测试的模型的实验严格性和公平性; (c)面向未来并且全面跟踪图机器学习任务和新GNN的进度。 从较高的角度看,我们的基准测试统一了以下方面的独立组件:(i)数据管道; (ii)GNN层和模型; iii培训和评价职能; iv网络和超参数配置; (v)再现性脚本。 我们认为,标准化的框架可以为社区带来巨大帮助,使研究人员可以在开发过程的任何阶段探索新的想法,而无需设置其他任何东西。 我们指导读者请参阅我们的GitHub存储库中的README用户手册,以获取有关使用编码基础结构的详细说明。
2.2图卷积网络
我们对两大类的GNN进行了基准测试。 首先,我们考虑广泛使用的基于消息传递的图卷积网络(GCN),它根据以下公式将节点表示从一层更新为另一层:h+1 i = f(hi,{hj}j∈ 你 )。 请注意,更新方程是局部的,仅取决于节点i的邻域Ni,并且与图的大小无关,从而使稀疏图的空间/时间复杂度O(E)降低为O(n)。 因此,GCN在GPU上具有高度可并行性,并且是通过现代图机学习框架中的稀疏矩阵乘法来实现的[85,27]。 通过考虑在整个图域上具有共享权重的卷积运算,GCN与用于计算机视觉的ConvNets相似[50]。 当节点更新方程式平等对待每个“边缘方向”时,我们实例化一类各向同性的GCN,即每个邻居通过接收相同的权重值对中央节点的更新做出同等的贡献:
公式(1)
其中σ是像ReLU这样的非线性点式激活。 流行的各向同性GCN包括香草GCN –图卷积网络[78,44]和GraphSage [33]。 另一方面,当更新方程式对每个边缘方向的处理方式不同时,我们将实例化各向异性GCN:
公式(2)
其中ηij= f(h
i,hj),f
是参数化函数,其权重是在训练过程中获得的。
ηij可以是标量或向量。 在后一种情况下,应将项ijij与项W2h
j之间的乘法理解为逐元素乘法。 MoNet-高斯混合模型网络[63],GatedGCN-图卷积网络[11]和GAT-图注意网络[80]分别提出了基于GMM的边缘权重,门控机制和稀疏度来计算ηij。
我们研究的第二类是基于WL检验的最近的Weisfeiler-Lehman GNNs [88]。
[89]中的作者介绍了GIN-Graph同构网络,这是一个可证明的1-WL GNN,它可以区分两个非同构图w.r.t。 1-WL测试。 在[66,58]中,较高的k-WL同构测试导致更具判别力的k-WL GNN。 然而,k-WL GNN要求使用等级k的张量,这在k> 2的情况下实际上是棘手的。结果,[58]提出了一个模型,即3-WL GNN,该模型使用等级2张量,而 3-WL可证明的。 这种3-WL模型将[66]的时空复杂度分别从O(n 3)/ O(n 4)改进为O(n 2)/ O(n 3)。 3-WL GNN的层更新方程定义为:
公式(3)
其中MW是应用于要素尺寸的2层MLP。 [18]中的作者提出了RingGNN,RingGNN也使用2级张量,并且比2-WL GNN具有更高的学习能力。 RingGNN的层更新公式为:
公式(4)
w [1,2]∈R。该模型使用[59]中定义的等变线性层LW为LW(h)·,·,k = P17 i = 1 Pd j = 1 Wi,j,kLi(h)· ,·,j,其中{Li} 15 i = 1是从R n×n→R n×n开始的所有线性等变函数的所有基函数的集合,而{Li} 17 i = 16是偏置项的基础 。 RingGNN与3-WL GNN具有相同的时空复杂度。 我们请读者参考补充材料,以详细了解这些模型。
所有GCN都可以使用深度网络的基本构建模块进行升级,即残余连接[34、51]和批处理规范化[36]。 我们将在第4节中讨论WL-GNN的批处理规范化和剩余连接
2.3数据集
流行数据集的问题。 GNN领域中的新思想主要在现实但规模较小的Cora [61],Citeseer [30]和TU数据集[41]上进行了评估。 例如,Cora是一个2.7K节点的单图,TU-IMDB的1.5K图平均具有13个节点,TU-MUTAG的188个分子具有18个节点。 尽管小型数据集可用作检查新想法的合理性,但从长远来看,它们可能会成为责任,因为新的GNN模型将被设计为适合小型测试集,而不是寻找更通用的体系结构。 如前所述,流行数据集的另一个主要问题是缺乏实验结果的可重复性。 大多数发表的论文没有使用相同的训练验证测试拆分[26]。 此外,即使对于相同的分割,由于尺寸小,GNN的性能在常规的10倍交叉验证中也表现出较大的标准偏差,请参见补充材料。
同时,收集代表性的,现实的和大规模的图形数据集提出了一些挑战。 尚不清楚哪种理论工具可以定义数据集的质量或验证其对于给定任务的统计代表性。 此外,在准备图形时有几个任意选择,例如节点和边要素。 例如,电子商务产品功能可以通过专门的词袋给出,也可以根据标题和说明中的词嵌入进行计算。 最后,目前尚不清楚如何对数据集大小/规模进行分类,因为适当的大小可能取决于任务的复杂性以及基础数据的维度和统计信息。 非常大的图形数据集也提出了计算难题,需要大量GPU资源进行研究[19,71]。 最近的开放图谱基准测试(OGB)项目[87]是社区中解决这些挑战所急需的举措。 OGB提供了一组中型现实世界的图形机器学习数据集和评估协议,并着重于通过有意义的数据拆分实现分布外的泛化性能。
提出的数据集 在我们的基准测试中,我们将适当的数据集定义为能够在统计上分离GNN性能的数据集。 重要的是要注意,像Cora,Citeseer和TU数据集这样的小型数据集不能满足此要求,因为所有GNN的统计数据几乎都相同。 表1总结了我们基准测试框架中包含的7个中规模数据集和一个小规模数据集。 我们涵盖了四个最基本的监督图机器学习任务[15]:图回归(ZINC),图分类(MNIST,CIFAR10,CSL),节点分类(PATTERN,CLUSTER)和链接预测(TSP,COLLAB),来自 化学,数学建模,计算机视觉,组合优化和社交网络等领域。 人工生成了四个数据集(PATTERN,CLUSTER,TSP,CSL),两个数据集(MNIST,CIFAR10)是半人工的,两个数据集(ZINC,COLLAB)是真实的数据集。
就节点总数而言,数据集的大小在0.27M至7M之间变化。
关联 ZINC [37]是世界上最受欢迎的250K图形分子数据集之一,从中我们随机选择12K以提高效率。 我们认为图形性质回归的任务是限制溶解度,这是设计分子生成的GNN的重要化学性质[39,92]。 PATTERN和CLUSTER是使用随机块模型[1]生成的节点分类任务,该任务已广泛用于通过调制社区内和社区外的联系来建模社交网络中的社区,从而控制任务的难度。 PATTERN测试基本图任务以识别特定的预定子图(如[75]中所述),而CLUSTER的目标是在半监督的环境中识别社区群[44]。 所有SBM图都增加了节点特征,以模拟用户属性,从而任务是更自然的,而不是纯粹的结构聚类任务。 MNIST [50]和CIFAR10 [47]是经典图像分类数据集,它们使用所谓的超像素[2]转换为图形,并将每个节点的特征指定为超像素坐标和强度。 这些数据集是健全性检查,因为我们希望大多数GNN对MNIST的表现接近100%,对CIFAR10的表现也足够好。 TSP基于经典的旅行商问题,在2D欧几里得图上测试链接预测,以识别属于协和解算器[4]给出的最佳TSP解的边。 TSP是研究最深入的NP-Hard组合问题,有关利用GNN学习更好的求解器的文献越来越多[42,40,10]。 COLLAB是由OGB [87]提出的链接预测数据集,它对应于由Microsoft Academic Graph [84]索引的科学家之间的协作网络。 任务是根据过去的协作链接预测未来的作者协作关系。 最后,CSL是[67]中引入的综合数据集,用于测试GNN的表达能力。 特别地,如果图具有相同的度数并且任务是对非同构图进行分类,则它们是同构的。
最后,值得注意的是,我们的基准测试基础设施是OGB计划的补充,并且非常适合集成当前和将来的OGB数据集和评估协议,这包括COLLAB数据集。
数据拆分 ZINC具有10K火车/ 1K验证/ 1K和1K测试图。 对于MNIST和CIFAR10,统计信息分别为55K火车/ 5K验证/ 10K测试和45K火车/ 5K验证/ 10K测试。 MNIST和CIFAR10中用于验证集的5K样本是从各自的训练集中随机采样的。 SBM图的数量是PATTERN的10K列/ 2K验证/ 2K测试和CLUSTER的10K列/ 1K验证/ 1K测试。 同样,TSP具有10K火车/ 1K验证和1K测试图。 COLLAB是单个大型时间图,大小为235K节点,由OGB提供训练/验证/测试边缘分割。 最后,CSL有150张图,我们采用分层抽样进行5倍交叉验证,以确保分类之间的类分布保持相同。
有关数据集生成和准备的更多详细信息,请参见补充资料。
训练 对于所有模型,我们使用具有相同学习率衰减策略的Adam优化器[43]。
在{10−3,10−4}中选择一个初始学习速率,如果在固定的5或10个时期后验证损失没有改善,则将初始学习速率降低一半。我们没有设置最大的时期– 当学习率达到较小值10-6或计算时间达到12小时时,训练将停止。 我们使用4种不同的种子运行每个实验,并报告4个结果的统计数据。 补充中提供了更多详细信息。
基于任务的网络层 由GCN的最后一层或在高阶WL-GNN的最后一层获得的密集张量生成的节点表示将传递到网络后缀,该后缀通常是3层的下游MLP。 对于GIN,RingGNN和3WL-GNN,我们遵循网络后缀的原始说明来考虑网络每一层的特征输出,类似于Jumping Knowledge Networks [90]。 有关更多详细信息,请参见补充材料。
参数预算 我们的目标不是为特定的GNN模型找到最佳的超参数集(这在计算上是昂贵的),而是在参数预算和最大计算时间之内对模型和/或其构建块进行比较和基准测试。 因此,我们决定使用两个参数预算:(1)每个任务的每个GNN的100k参数,以及(2)我们研究将模型缩放到更大的参数和更深层的GNN的500k参数。 相应地选择隐藏层的数量和隐藏尺寸以匹配这些预算,其细节在补充材料中。
本节重点介绍表2,表3和表4中的实验的主要内容,这些信息使用第3节中描述的实验设置评估第2.2节中的GNN。
与图无关的NN效果较差 作为一个健全性检查,我们将所有GNN与一个简单的图形诊断MLP基线进行比较,该基线将更新每个节点,彼此独立,而不是h+1 i =σW'h
i,并将这些功能传递给基于任务的层。 MLP在所有数据集上始终显示较低的分数(表2和表3),这表明必须将图形结构用于这些任务。 全部提出我们的研究中使用的数据集适合于在统计上分离GNN的性能,这对于广泛使用但规模较小的图形数据集仍然是个问题[26,54]。
在建议的数据集上,GCN的效果优于WL-GNN尽管在图同构测试和不变函数逼近方面证明是强大的[60、18、66],但对于我们的中型数据集,最近的3WLGNN和RingGNN却无法胜过GCN,如表2所示。
这些新模型在空间/时间复杂度方面受到限制,分别为O(n 2)/ O(n 3),不允许它们扩展到更大的数据集。 相反,线性复杂度为w.r.t的GCN 稀疏图的节点数,可以方便地缩放到16层,并在所有数据集上显示最佳性能。 3WL-GNN和RingGNN在尝试建立更深层的网络时会面临损耗差异和/或内存不足错误,请参阅表2。
各向异性机制改善了GCN 在GCN类的模型中,最好的结果指向各向异性模型,尤其是GAT和GatedGCN,它们分别基于稀疏和密集注意力机制。 例如,表2中针对ZINC,PATTERN,CLUSTER,MNIST和CIFAR的结果表明,除了以下各项外,100K参数各向异性GNN(GAT,MoNet,GatedGCN)的性能始终优于各向同性模型(GCN,GraphSage) GraphSage-MNIST和MoNet-CIFAR10。 稍后讨论的表4剖析并证明了各向异性对于链路预测任务TSP和COLLAB的重要性。 总体而言,我们的结果表明,了解基于注意力的邻域聚合函数的表达能力是有意义的研究途径。
训练WL-GNN的潜在挑战 我们始终观察到WL-GNN的性能具有相对较高的标准偏差(回想一下,我们使用4种不同的种子对4次运行进行平均)。 我们将这种波动归因于缺乏通用的训练程序,例如批处理和批处理规范化,因为这些GNN在可变大小的密集2级张量上运行。 另一方面,在稀疏张量上运行的GCN更好地利用了批量训练和规范化来进行稳定和快速的训练。 领先的图机器学习库将图的批次表示为稀疏块对角矩阵,从而可以通过并行计算来批量训练GCN [38]。
密集张量与流行方法不兼容,从而无法将批量归一化用于WL-GNN。 我们尝试了层归一化[5],但没有成功。 对于单个COLLAB图,我们也无法在CPU内存上训练WL-GNN。 新的WL-GNN的实际应用可能需要重新设计最佳实践和深度学习的通用构建块,即批量处理可变大小的数据,规范化方案和残差连接。
3WL-GNN在同类产品中表现最好在WL-GNN类的模型中,3WLGNN比其类似的对等RingGNN提供更好的结果。 GIN模型虽然表现力较低,但可以更好地扩展并提供总体良好的性能。
拉普拉斯特征向量作为位置嵌入 背景。 在[67,77]中指出,当处理在结构上表现出某些对称性的图形(例如节点或边同构)时,标准GCN的性能可能会较差。 为了解决这个问题,作者在[67]中引入了一个称为图关系池(Graph Relational Pooling,GRP)的框架,该框架为每个节点分配了一个依赖于索引顺序的标识符。 这种方法在计算上可能是昂贵的,因为它需要考虑所有n! 节点排列,因此实际上需要进行一些采样。
主张。 与[67]中一样,我们保留了整个GCN体系结构,并在通过GCN处理图形之前简单地向每个节点添加了位置特征。 应该选择位置特征,以使图中相距较远的节点具有不同的位置特征,而附近的节点具有相似的位置特征。 在[67]中,作者使用节点索引的一键编码。 作为替代方案,我们建议使用图拉普拉斯特征向量[9],该向量具有较少的模糊性,并且可以更好地描述图上节点之间的距离。 形式上,拉普拉斯特征向量是将图嵌入到欧几里得空间中的频谱技术。 这些向量形成有意义的局部坐标系,同时保留全局图结构。
在数学上,它们是通过图拉普拉斯矩阵的因式分解来定义的
公式(5)
其中A是n×n邻接矩阵,D是度矩阵,并且Λ,U分别对应于特征值和特征向量。 拉普拉斯特征向量也代表了图的Transformer [79]位置编码(PE)的自然概括,因为离散线(NLP图)的特征向量是余弦和正弦函数。 可以通过以下方式提高计算复杂度O(E3 / 2),其中E为边的数量。 奈斯特罗姆方法[28]。 特征向量的定义最大为因子±1(在归一化为单位长度后),因此特征向量的符号将在训练过程中随机翻转。 对于实验,我们使用k个最小的非平凡特征向量,其中k值在表2中给出。最小的特征向量提供相邻节点的平滑编码坐标。 有关位置编码的讨论,请参见附录中的D节。
分析 首先,我们用CSL研究这些PE的有用性,CSL是在[67]中引入的数学数据集,用于证明GCN未能为高度自构图提供有意义的节点表示。 表3比较了使用拉普拉斯特征向量作为PE和WL-GNN的GCN。 GCN模型最准确,平均准确率达到99%,而在我们的实验环境中,3WL-GNN获得了97%,RingGNN获得了25%。 然后,我们使用PE研究ZINC,PATTERN,CLUSTER和COLLAB(请注意,MNIST,CIFAR10和TSP不需要PE,因为这些图中的节点已经具有描述其在R 2中位置的特征)。 我们观察到ZINC和CLUSTER的性能有所提高(可以预期,因为特征向量是聚类的良好指标[82]),PATTERN的改进以及COLLAB的统计结果均相同,请参见表2。作为未来的工作,我们计划 与最近的技术[93]进行比较,后者使用GNN来同时学习节点结构和位置编码。
边缘表示可改善链接预测 上下文 TSP和COLLAB边缘分类任务为GCN提供了有趣的经验结果:各向同性模型(GCN,GraphSage)始终优于其各向异性的对应模型,后者在聚合过程中使用相邻节点的联合表示作为边缘特征(GAT,GatedGCN)。 在表4中,我们通过实例化GAT和GatedGCN的三个变体来系统地研究各向异性的影响:(1)各向同性聚合(例如香草GCN [44]),其节点更新形式为:
公式(6)
(2)使用带有节点特征的边缘特征(例如默认情况下为[80]的GAT)的各向异性
公式(7)
(3)具有边缘特征的各向异性和显式的边缘表示,在每一层具有节点/边缘更新,例如(默认情况下在GatedGCN中[11])
公式(8)
表4中的GatedGCN-E和GAT-E是使用来自数据集的输入边缘特征初始化边缘表示eij的模型。 详细的方程式可在补充材料中找到。 对于大型COLLAB图,维护边缘表示会花费时间和内存,因此所有模型都减少了27K参数的预算以适合GPU内存,并且最多可以训练24小时进行收敛。
分析 在TSP和COLLAB上,考虑到相同的模型参数(例如TSP的0.75 vs. 0.64 F1得分,COLLAB的50.6%vs 35.9%的Hits @ 50,带有边缘特征的GatedGCN的升级),具有边缘特征的各向同性模型的升级显着提高了性能。 各向同性变体)。
跨层维护显式边缘表示可进一步提高TSP的F1得分,尤其是在用节点之间的欧式距离初始化边缘表示时(例如,GAT-E与标准GAT的F1得分为0.78 vs. 0.67)。 在COLLAB上,添加显式边缘表示和输入会降低性能,这表明功能(协作频率和年份)对链接预测任务没有用(例如,GatedGCN-E与GatedGCN的47.2 vs. 51.5 Hits @ 50)。 正如[87]所建议的,将COLLAB视为具有时间边缘的多图将是很有趣的,这激发了特定任务的各向异性边缘表示形式的发展,超越了一般的关注和门控机制。
我们引入了一个新的基准框架来严格评估图神经网络在中等规模数据集上的性能,并展示其在分析基于消息传递和理论上具有表达力的GNN的有用性。 当我们使代码开源,易于使用和可复制时,我们希望社区能够发现该项目对构建最新的GNN体系结构原型和跟踪图形表示学习的进展很有用。
广泛的影响
本文提出了一种可重现的基准测试基础结构,该基础结构可以公平,严格地评估图神经网络(GNN)架构,并跟踪图表示学习的进度。 我们的框架可能会推动通用和理论驱动的GNN模型的开发,这些模型可以部署在各种下游应用程序中。 在本节中,我们简要讨论了积极的用例和可能的消极结果。
更好的GNN架构 图形可以满足各种数据驱动的问题,并且可以使用GNN解决它们:社交媒体和电子商务平台正在使用GNN来改善内容推荐和广告投放[91,94]。 GNN也正在推动这些平台的内容质量和包容性的改善,例如 监视仇恨言论或虚假新闻的传播[65]。 类似地,由交互图建模的实时优化问题将GNN作为其骨干,例如GNN。 硬件系统中处理器芯片和电源单元的调度[56、21]。
GNN也推动了药物发现[70],电路设计[62],神经科学[32]和基因组学[29]中复杂和高影响力问题的发展。
相反,导致正面结果的相同体系结构也可能用于恶意目的,尤其是在社交网络和电子商务中:监视假新闻传播的模型可能最终帮助不良行为者设计传播伪造内容的对抗策略,或者 基于网络效应来操纵行为。 社交媒体和电子商务平台的个性化程度不断提高,引发了有关高度敏感和个人用户信息的收集,所有权和存储的重要政策问题。
新的基准测试框架。 制定新基准的行为通常会设置优先级,并驱动特定社区的研究方向[72、83、7]。 因此,社区驱动的基准必须不断发展和发展,以反映社区中的最佳实践。 基准创建者必须警惕不要让其框架成为影响领域的锚点,并应接受广大社区的建议和贡献。
收集和准备图数据集还面临许多挑战和任意选择[87]。
例如,用于基准测试的数据集可能会推动针对特定领域的研究和应用程序,或包含对特定社区不利的偏见。 我们鼓励基准测试的用户了解当前的图机器学习数据集的局限性,并考虑现实情况下数据驱动系统带来的负面结果。 最终,我们认为从技术和公共政策的角度来看,围绕个人数据和数字隐私的问题都是重要的考虑因素.
我们现在提供与准备的基准框架第2.3节中描述的数据集的准备有关的其他信息,以及用于训练和绩效指标的相应实验设置。
A.1SBM数据集
进行节点分类SBM数据集考虑了图模式识别的节点级任务[75] –模式和半监督图聚类–集群。 这些图是通过随机块模型(SBM)[1]生成的,该模型广泛用于通过调制社区内和社区外的联系来建模社交网络中的社区,从而控制任务的难度。 SBM是一个随机图,它按如下方式为每个节点分配社区:如果两个顶点属于同一社区,则它们与概率p相关;如果它们属于不同社区,则它们与概率q相关( q充当噪声级别)。
模式:[75]中提出的图形模式识别任务旨在找到嵌入可变大小的较大图形G中的固定图形模式P。 对于所有数据,我们生成具有5个社区的图G,其大小在[5,35]之间随机选择。 每个社区的SBM为p = 0.5,q = 0.35,并且G上的节点特征是通过均匀随机分布生成的,其词汇表的大小为3,即{0,1,2}。 我们随机生成由20个节点组成的100个模式P,其内概率pP = 0.5而超概率qP = 0.5(即P中50%的节点连接到G)。 P的节点特征还作为值为{0,1,2}的随机信号生成。
这些图的大小为44-188个节点。 如果节点属于P,则输出节点标签的值为1,如果位于G中,则输出值为0。
集群:对于半监督聚类任务,我们生成6个SBM聚类,其大小在[5,35]和概率p = 0.55,q = 0.25之间随机选择。 这些图的大小为40-190个节点。
每个节点都可以采用{0,1,2,…,6}中的输入要素值。 如果值为1,则该节点属于类0,值2对应于类1,…。 。 。 ,值6对应于类5。否则,如果值是0,则节点的类是未知的,并将由GNN推断。 只有一个带标签的节点被随机分配给每个社区,并且大多数节点功能都设置为0。输出节点标签被定义为社区/集群类标签。
分裂 PATTERN数据集具有10000 train / 2000验证/ 2000测试图,而CLUSTER数据集具有10000 train / 1000验证/ 1000测试图。 我们将保存生成的分割并在所有模型中使用相同的集合进行公平比较。
训练 如第3节中的标准实验协议中所述,我们使用具有学习速率衰减策略的Adam优化器。 对于所有GNN,初始学习速率设置为1×10-3,缩减因子为0.5,耐心值为5,停止学习速率为1×10-5。
性能指标。 性能度量是相对于类大小加权的平均节点级别准确性。
A.2具有超像素数据集
图分类超像素数据集使用流行的MNIST和CIFAR10图像分类数据集测试图分类。 我们使用这些数据集的主要动机是进行健全性检查:我们期望大多数GNN对MNIST的表现接近100%,对CIFAR10的表现也足够好。
原始MNIST和CIFAR10图像使用超像素转换为图形。 超像素代表图像中强度均匀的小区域,可以使用SLIC技术提取[3]。 我们使用[45] 4中的SLIC超像素。 对于每个样本,我们建立一个k最近邻邻接矩阵,其中
公式(9)
CIFAR10,分别。 对于MNIST,结果图的大小为40-75个节点,对于CIFAR10,结果图的大小为85-150。 图1展示了超像素图的可视化。
分裂我们使用MNIST和CIFAR10的标准分割。 MNIST具有55000训练/ 5000验证/ 10000测试图,CIFAR10具有45000训练/ 5000验证/ 10000测试图。 从训练集中随机抽取5000个验证集图,并对每个GNN使用相同的分割。
训练 对于所有GNN,除了3WLGNN和RingGNN经历了一次学习失败后,学习衰减率策略的初始学习率为1×10-3,减少因子0.5,耐心值为10,停止学习率为1×10−5。 训练上的困难,导致我们稍微调整了他们的学习进度表超参数。 对于3WLGNN和RingGNN,耐心值均更改为5。对于RingGNN,初始学习率更改为1×10-4,停止学习率更改为1×10-6。
性能指标 每个图的预测标签与地面标签之间的分类精度是性能指标。
近年来,利用机器学习来解决NP硬组合优化问题(COP)一直是研究的重点[81,10]。 最近提出的以学习驱动的COP求解器[42、52、46]将GNN与经典搜索结合起来,可以直接从问题实例(表示为图)中预测近似解。 考虑经过深入研究的旅行推销员问题(TSP),它提出以下问题:“给出一个城市列表以及每对城市之间的距离,访问每个城市并返回原城市的最短路线是什么?” 形式上,给定一个二维欧几里得图,需要找到一个最优的节点序列,称为游览,具有最小的总边缘权重(游览长度)TSP的多尺度性质使其成为一项极具挑战性的图任务,需要对两个局部节点进行推理 邻域以及全局图结构。
对于我们使用TSP进行的实验,我们遵循[52,40]中描述的基于学习的COP方法,其中GNN是用于将概率分配给属于或不属于预测解决方案集的每个边的骨干架构。 然后通过图搜索技术将概率转换为离散决策。 每个实例都是在单位平方S = {xi} n i = 1和xi∈[0,1] 2中均匀采样的n个节点位置的图。 通过为每个实例统一采样节点数n∈[50,500],我们会产生大小和复杂度不同的问题。
为了从搜索组件中分离出骨干GNN架构的影响,我们将TSP设置为二进制边缘分类任务,每个边缘的地面真实值属于Concorde [4]给出的TSP巡视。 为了缩放到大型实例,我们使用稀疏k = 25最近邻图,而不是完整图,紧随[42]。 有关各种大小的示例TSP实例,请参见图2。
分裂 TSP具有10000个训练,1000个验证和1000个测试图。
训练 所有GNN均采用一致的学习率策略:初始学习率设置为1×10-3, 减少因子为0.5,耐心值为10,停止学习率为1×10-5。
性能指标 鉴于班级的高度失衡,即只有TSP巡回赛的边缘具有正面标签,我们将F1得分用于正面班级作为我们的绩效指标。
非学习基准 除了报告GNN的性能外,我们还与简单的k最近邻居启发式基线进行比较,定义如下:对与每个节点的k个最近邻居相对应的边预测为true,对所有其他边预测为false。 我们将k = 2以获得最佳性能。 将GNN与非学习基准进行比较,可以告诉我们模型是否比识别节点最近的邻居学得更复杂。
A.4使用COLLAB数据集
链接预测COLLAB是OGB [87]提出的链接预测数据集,它对应于大约235K科学家之间的协作网络,并由Microsoft Academic Graph [84]索引。 节点表示科学家,节点表示它们之间的协作。 对于节点特征,OGB提供了128维向量,该向量是通过对科学家论文的词嵌入进行平均得到的。 将给定年份中的年份和合着论文的数量连接起来以形成边缘特征。 该图也可以视为动态多图,因为如果两个节点协作多年,则两个节点之间可能有多个时间边缘。
通过引入COLLAB数据集,我们还想证明我们的基准测试基础结构是OGB计划的补充,并且非常适合集成当前和将来的OGB数据集和评估协议。
分裂 我们使用OGB提供的切合实际的训练,验证和测试边缘拆分。 具体来说,他们将直到2017年的协作作为训练优势,将2018年的协作作为验证优势,并将2019年的协作作为测试优势。
训练 所有GNN都使用一致的学习率策略:初始学习率设置为1×10-3,缩减因子为0.5,耐心值为10,停止学习率为1×10-5。
性能指标 我们使用OGB提供的评估程序,旨在评估模型根据过去的合作来预测未来合作关系的能力。 具体来说,他们将一组100,000个随机采样的负协作中的每个真实协作排名,并计算排名在K位或更高(Hits @ K)的正边缘的比率。 他们建议通过初步实验使用K = 10,但我们发现K = 50更好地从统计学上分离了GNN的性能。
矩阵分解基线 除了GNN,我们报告了简单矩阵分解基线的性能[87],该基线为235K节点中的每一个训练256维嵌入。
将GNN与矩阵分解进行比较,可以告诉我们模型是否除了图结构之外还利用节点特征,因为矩阵分解可以认为与特征无关
A.5使用ZINC数据集
图形回归我们使用ZINC分子图(250K)数据集的子集(12K)[37]来回归称为受限溶解度的分子特性。 对于每个分子图,节点特征是重原子的类型,边缘特征是它们之间的键的类型。
分裂 ZINC具有10000个训练,1000个验证和1000个测试图。
训练 对于所有GNN的学习率策略,初始学习率设置为1×10-3,缩减因子为0.5,停止学习率设置为1×10-5。 3WLGNN和RingGNN的耐心值为5,其他所有GNN的耐心值为10。
性能指标 性能量度是每个分子图的预测溶解度和地面溶解度约束之间的平均绝对误差(MAE)。
A.6使用CSL数据集进行图分类和同构测试
圆形跳过链接数据集是[67]中引入的对称图数据集,用于测试GNN的表达能力。 每个CSL图是一个4正则图,边缘相连形成一个循环,并包含节点之间的跳过链接。 正式地,用GN,C表示,其中N是节点数,C是同构类,是图的跳过链接。 我们使用具有C∈{2,3,4,5,6,6,9,11,12,13,16}的相同数据集G41,C。 数据集具有每个C的15个图的类平衡,因此总共有150个图。
分裂 我们按照[67]进行5倍交叉验证拆分,它以3:1:1的比例提供5组训练,验证和测试数据索引。我们使用分层抽样来确保类分布在整个过程中保持相同 分裂。 索引被保存并在所有实验中用于公平比较。
训练 对于所有GNN的学习率策略,将初始学习率设置为5×10-4,减少因子为0.5,耐心值为5,停止学习率则为1×10-6。 在[18]之后,我们对20种不同的初始化种子进行了5倍交叉验证。
性能指标 我们使用预测标签和地面标签之间的图形分类精度作为我们的性能指标。 在每次运行的5折测试拆分中评估模型性能,然后在[67,18]之后,我们报告100分的最大,最小,平均和标准偏差,即20次5折。 。
除了基准中建议的数据集(第3节)之外,我们还对3种TU数据集进行了图形分类的实验-ENZYMES,DD和PROTEINS。 我们的目标是凭经验强调使用这些常规数据集对GNN进行基准测试所面临的一些挑战。
分裂 由于我们使用的3个TU数据集没有标准分割,因此我们执行10倍交叉验证分割,从而以10:1:1的比率提供10组训练,验证和测试数据索引。
我们使用分层抽样来确保分类之间的类分布保持相同。 索引被保存并在所有实验中用于公平比较。 每个折叠中都有480个ENZYMES的train / 60验证/ 60测试图,DD的941 train / 118验证/ 119测试图和PROTEINS数据集的889 train / 112验证/ 112测试图。
训练 我们将Adam优化器与基准实验协议中使用的学习率策略类似。 使用每个GNN模型的网格搜索,可以将初始学习率从1×10-3调整为7×10-5。 学习速率降低因子为0.5,耐心值为25,停止学习速率为1×10-6。
性能指标 我们使用预测标签和地面标签之间的分类准确性作为我们的性能指标。 对于所有TU数据集,在10倍的测试拆分中评估模型性能,并报告为10分的平均值和标准偏差。
表6给出了我们在TU数据集上的数值结果-ENZYMES,DD和PROTEINS。我们观察到,由于标准偏差相当大,所有NN的统计测试性能均相似。 我们还报告了这些实验的第二次运行,它们具有相同的实验方案,即相同的10倍拆分和超参数但初始化(种子)不同。 我们观察到模型排名的变化,这归因于数据集的小尺寸和梯度下降优化器的不确定性。 我们还观察到,对于DD和蛋白质,与图无关的MLP基线的性能与GNN一样好。 我们的观察重申了如何在小型TU数据集上进行实验很难确定哪些GNN既强大又强大。
标准GCN不能区分同构节点[67,93]。 为了克服这个问题,提出了节点的位置编码(PE)。 理想情况下,PE对于每个节点都应该是唯一的,并且图中相距较远的节点应具有不同的位置特征,而附近的节点应具有相似的位置特征。 请注意,在具有某些对称性的图形中,不能以规范的方式分配位置特征。 例如,如果节点i和节点j为由于结构上是对称的,并且我们具有区分它们的位置特征pi = a,pj = b,因此也可以任意选择pi = b,pj = a,因为根据定义i和j完全对称。 换句话说,PE始终是任意的,直到图中的对称性数量为止。
结果,网络将不得不学习在训练过程中应对这些歧义。
可能的最简单的位置编码是在n!个节点之间给节点(任意)排序。
可能的订单。 在训练过程中,从n!中均匀地采样顺序! 为了使网络学习独立于这些任意选择而可能的选择[67]。
我们提出了一种替代方法来减少采样空间,从而减少网络要解决的歧义。 拉普拉斯特征向量是位置和结构的混合编码,因为它们通过节点重新参数化是不变的。 但是,它们也受到自然对称性(例如特征向量的任意符号)的限制(在归一化为单位长度后)。 可能的符号翻转次数为2 k,其中k为特征向量的数量。 实际上,我们选择k n,因此2 k比n小得多! (节点的可能排序数)。 在训练期间,特征向量将在2 k种可能性之间随机地进行均匀采样。 如果我们不寻求学习不变性w.r.t. 特征向量的所有可能的符号翻转,然后我们可以通过取绝对值来消除特征向量的符号歧义。 这种选择会严重降低位置特征的表达能力。
表7报告了不同位置编码的数值结果。对于所有结果,我们使用GatedGCN模型[11]。 我们研究了5种类型的位置编码; EigVecs-k对应于最小的非平凡特征向量,兰德(EigVecs)随机翻转每批中k个最小非平凡特征向量的符号,Abs(EigVecs)取k个特征向量的绝对值,固定节点排序 使用图的原始节点顺序,并且Rand节点顺序随机排列每批中的节点顺序。 我们观察到,拉普拉斯PE训练时始终随机翻转,始终能产生最佳结果。 对于索引PE,与保持固定的原始节点顺序相比,随机排列节点的顺序还可以显着提高性能。 但是,拉普拉斯PE明显优于指数PE。
GNN在第4部分,表4中,我们通过实例化GAT和GatedGCN的三个变体来系统地研究各向异性的影响:(1)各向同性聚集,例如香草GCN,等式(13); (2)使用边缘特征的各向异性,例如默认情况下的GAT等式(18); (3)具有边缘特征的各向异性和在每个层上更新的显式边缘表示,例如默认情况下在GatedGCN中,公式(24)。 本节提供每个模型变量的形式方程式。 (请注意,除了我们考虑的方法外,还可以使用多种方法实例化各向异性GNN并使用边缘特征[8、74、13]。)
。
直观上,可变大小的批处理图可能会导致不同比例的节点表示,这使得难以了解不规则批大小和可变图上BatchNorm的最佳统计量µ和σ。 这项工作的初步版本引入了一种称为GraphNorm的图大小标准化技术,该技术可以标准化节点特征h`iw.r.t。 图的大小,我
公式(73)
3)其中V是图节点的数量。 GraphNorm层位于BatchNorm层之前。
我们想指出的是,GraphNorm到目前为止还没有任何具体的理论基础,它是基于ZINC和CLUSTER等数据集的最初有希望的经验结果提出的。
未来的工作将研究更多原则性的方法来设计图结构化数据的规范化层
由于实现和硬件加速方面的差异,时序研究代码可能很棘手。
尽管如此,我们还是从实际角度出发,报告了每个时期的平均挂钟时间和每种模型的总训练时间。 所有实验均在DGL / PyTorch中进行。 我们在配备4个Nvidia 1080Ti GPU的Intel Xeon CPU E5-2690 v4服务器上运行MNIST,CIFAR10,ZINC,TSP,COLLAB和TU的实验,并在配备4个Nvidia 2080Ti GPU的Intel Xeon Gold 6132 CPU上运行PATTERN和CLUSTER。 每个实验都在单个GPU上运行,并且在任何给定时间(在不同GPU上)在服务器上运行4个实验。 每个实验最多进行12小时