https://mp.weixin.qq.com/s/rzFtpI28XbyxONh5X0Pvaw
Relational inductive biases, deep learning, and graph networks
arXiv:1806.01261 [pdf, other]
40页pdf
Relational inductive biases, deep learning, and graph networks
Authors: Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Caglar Gulcehre, Francis Song, Andrew Ballard, Justin Gilmer, George Dahl, Ashish Vaswani, Kelsey Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, Matt Botvinick, Oriol Vinyals , et al. (2 additional authors not shown)
Submitted 17 October, 2018; v1 submitted 4 June, 2018; originally announced June 2018.
摘要:人工智能(AI)最近经历了一次复兴,在视觉、语言、控制和决策等关键领域取得了重大进展。这在一定程度上是因为廉价的数据和廉价的计算资源符合深度学习的自然优势。然而,在不同的压力下发展起来的人类智力的许多决定性特征,仍然是当前方法无法达到的。特别是,对现代人工智能来说,超越个人经验的概括(这是人类从婴儿期起的智能特征)仍然是一项艰巨的挑战。
以下是部分立场文件、部分回顾和部分统一。我们认为,组合泛化必须是人工智能实现类人能力的首要任务,结构化表示和计算是实现这一目标的关键。正如生物学将先天和后天培养结合起来一样,我们拒绝在“手工工程”和“端到端”学习之间做出错误的选择,相反,我们提倡一种受益于它们互补优势的方法。我们探讨了在深度学习架构中使用关系归纳偏置如何促进对实体、关系和组合规则的学习。我们为AI工具包提供了一个新的构建块,它具有强大的关系归纳偏置——图网络——它概括和扩展了各种用于对图形进行操作的神经网络的方法,并为操作结构化知识和生成结构化行为提供了一个直观的界面。我们讨论了图网络如何支持关系推理和组合泛化,为更复杂、可解释和灵活的推理模式奠定基础。作为本文的补充,我们发布了一个用于构建图网络的开源软件库,并演示了如何在实践中使用它们。
1导言
人类智力的一个关键特征是“无限利用有限手段”(洪堡,1836年;乔姆斯基,1965年)的能力,在这种能力中,一小部分元素(如单词)可以以无限的方式(如新句子)有效地组合。这反映了组合泛化的原理,即从已知的构建块构造新的推理、预测和行为。在这里,我们探讨了如何通过将学习偏向于结构化表示和计算,特别是在图形上操作的系统,来提高现代人工智能的组合泛化能力。
人类的组合概括能力在很大程度上取决于我们表达结构和推理关系的认知机制。我们将复杂系统表示为实体的组成及其相互作用1(Navon,1977年;McClelland和Rumelhart,1981年;Plaut等人,1996年;Marcus,2001年;Goodwin和Johnson Laird,2005年;Kemp和Tenenbaum,2008年),例如判断一堆杂乱无章的物体是否稳定(Battaglia等人,2013年)。我们使用层次结构从细粒度的差异中抽象出来,并捕获表示和行为之间更一般的共性(Botvinick,2008;Tenenbaum et al.,2011),例如对象的部分、场景中的对象、城镇中的社区和国家中的城镇。我们通过编写熟悉的技能和常规(Anderson,1982)来解决新问题,例如,通过编写熟悉的程序和目标(如“乘飞机旅行”、“去圣地亚哥”、“在家吃饭”和“印度餐馆”)到新地点旅行。我们通过调整两个领域之间的关系结构,并根据对另一个领域的相应知识对其中一个领域进行推断,从而得出类比(Gentner和Markman,1997;Hummel和Holyoak,2003)。
肯尼斯·克雷克(Kenneth Craik)的《解释的本质》(1943年)将世界的构成结构与我们内部心理模型的组织方式联系起来:
...[人类心理模型]与它所模仿的过程具有相似的关系结构。我所说的“关系结构”并不是指某个模糊的非物理实体参与到模型中,而是指它是一个工作的物理模型,其工作方式与它并行的过程相同。。。显然,物理实在是由几个基本类型的单位建立起来的,这些单位的性质决定了最复杂现象的许多性质,这似乎充分解释了机制之间出现的类比以及这些组合之间关系结构的相似性,而无需任何客观普遍性理论。(克雷克,1943年,第51-55页)
也就是说,世界是由成分构成的,或者至少,我们从成分的角度来理解它。在学习时,我们要么将新知识融入现有的结构化表示,要么调整结构本身,以更好地适应(并利用)新知识和旧知识(Tenenbaum等人,2006年;Griffiths等人,2010年;Ullman等人,2017年)。如何构建具有组合泛化能力的人工系统的问题自人工智能诞生以来一直是人工智能的核心,也是许多结构化方法的核心,包括逻辑、语法、经典规划、图形模型、因果推理、贝叶斯非参数学、,和概率规划(乔姆斯基,1957年;尼尔森和菲克斯,1970年;珀尔,1986年,2009年;拉塞尔和诺维格,2009年;Hjort等人,2010年;古德曼等人,2012年;Ghahramani,2015年)。整个子领域都专注于以实体和关系为中心的显性学习,如关系强化学习(Dˇzeroski等人,2001)和统计关系学习(Getoor和Taskar,2007)。在以前的时代,结构化方法对机器学习如此重要的一个关键原因,部分是因为数据和计算资源非常昂贵,而结构化方法强大的归纳偏置所提供的改进的样本复杂性非常有价值。
与人工智能的过去方法相比,现代深度学习方法(LeCun等人,2015;Schmidhuber,2015;Goodfelle等人,2016)通常遵循“端到端”的设计理念,强调最小的先验表征和计算假设,并寻求避免显式结构和“手工工程”。这种强调与当前丰富的廉价数据和廉价计算资源非常契合,也可能得到了肯定,这使得权衡样本效率以获得更灵活的学习成为一种理性选择。从图像分类(Krizhevsky et al.,2012;Szegedy et al.,2017),到自然语言处理(Sutskever et al.,2014;Bahdanau et al.,2015),再到游戏(Mnih et al.,2015;Silver et al.,2016;Moravˇcık et al.,2017),在许多具有挑战性的领域取得了显著而迅速的进步,是对这一极简主义原则的证明。一个突出的例子是语言平移,序列到序列的方法(Sutskever et al.,2014;Bahdanau et al.,2015)在不使用显式解析树或语言实体之间的复杂关系的情况下被证明非常有效。
尽管deep learning取得了成功,但重要的评论(Marcus,2001;Shalev Shwartz et al.,2017;Lake et al.,2017;Lake and Baroni,2018;Marcus,2018a,b;Pearl,2018;Yuille and Liu,2018)强调了其在复杂语言和场景理解、结构化数据推理方面面临的关键挑战,将学习转移到训练条件之外,并从少量经验中学习。这些挑战需要组合泛化,因此避免组合性和显式结构的方法很难满足这些挑战,这也许并不奇怪。
当深度学习的联结主义者(Rumelhart et al.,1987)的先辈们面临来自结构化、象征性立场的类似批评时(Fodor和Pylyshyn,1988;Pinker和Prince,1988),他们做出了建设性的努力(Bobrow和Hinton,1990;Marcus,2001),直接而谨慎地应对这些挑战。在类比、语言分析、符号操作和其他形式的关系推理等领域,开发了各种用于表示和推理结构化对象的创新亚符号方法(Smolensky,1990;Hinton,1990;Pollack,1990;Elman,1991;Plate,1995;Eliasmith,2013),以及关于大脑如何工作的更为综合的理论(Marcus,2001)。这些工作也有助于培养更近期的深度学习进步,即使用分布式向量表示法捕获文本中丰富的语义内容(Mikolov等人,2013年;Pennington等人,2014年)、图形(Narayanan等人,2016年、2017年)、代数和逻辑表达式(Allamanis等人,2017年;Evans等人,2018年),和项目(Devlin等人,2017年;Chen等人,2018b)。
我们认为,现代人工智能的一个关键发展方向是将组合泛化作为首要任务,我们主张采用综合方法来实现这一目标。正如生物学不会在先天和后天之间做出选择一样,它将先天和后天结合起来,以建立一个大于其各部分总和的整体,我们也拒绝结构和灵活性在某种程度上不一致或不相容的概念,并接受两者,目的是收获它们的互补优势。本着基于结构的方法和深度学习的原则混合的众多最新实例的精神(例如,里德和德弗雷塔斯,2016年;加内洛等人,2016年;里奇等人,2016年;吴等人,2017年;丹尼尔等人,2017年;哈德逊和曼宁,2018年),我们看到,通过利用完整的人工智能工具包,将当今的最佳方法与数据和计算处于高价时所必需的方法结合起来,综合新技术将大有可为。
最近,在深度学习和结构化方法的交叉点上出现了一类模型,其重点是关于显式结构化数据的推理方法,特别是图表(如Scarselli等人,2009年b;Bronstein等人,2017年;Gilmer等人,2017年;Wang等人,2018c;Li等人,2018年;Kipf等人,2018年;Gulcehre等人,2018年)。这些方法的共同点是对离散实体及其关系执行计算的能力。与经典方法不同的是如何学习实体和关系的表示和结构以及相应的计算,从而减轻了需要提前指定它们的负担。至关重要的是,这些方法带有强烈的关系归纳偏置,表现为特定的架构假设,指导这些方法学习实体和关系(Mitchell,1980),我们,与其他许多人(Spelke等人,1992年;Spelke和Kinzler,2007年;Marcus,2001年;Tenenbaum等人,2011年;Lake等人,2017年;Lake和Baroni,2018年;Marcus,2018b)一起认为,大脑是类人智能的重要组成部分。
框1:关系推理
我们将结构定义为组成一组已知构建块的产物。“结构化表示”捕获这种组合(即元素的排列),并且“结构化计算”操作元素及其作为一个整体的组合。因此,关系推理涉及到操纵实体和关系的结构化表示,并使用规则来确定它们的组合方式。我们使用这些术语来获取认知科学、理论计算机科学和人工智能的概念,如下所示:
◦ 实体是具有属性的元素,例如具有大小和质量的物理对象。
◦ 关系是实体之间的属性。两个对象之间的关系可能包括与大小相同、比重以及与的距离。关系也可以有属性。大于X倍的关系使用属性X,该属性确定关系的相对权重阈值为真与假。关系也可能对全球环境敏感。对于一块石头和一根羽毛来说,它们之间的关系下降的加速度要大于背景是在空气中还是在真空中。这里我们重点讨论实体之间的成对关系。
◦ 规则是一个函数(类似于非二进制逻辑谓词),它将实体和关系映射到其他实体和关系,例如比例尺比较,如实体X大吗?实体X比实体Y重吗?。在这里,我们考虑采用一个或两个参数(一元和二进制)的规则,并返回一元属性值。
作为机器学习中关系推理的一个示例,图形模型(Pearl,1988;Koller和Friedman,2009)可以通过在随机变量之间建立明确的随机条件独立来表示复杂的联合分布。这些模型非常成功,因为它们捕捉了许多真实世界生成过程背后的稀疏结构,并且支持有效的学习和推理算法。例如,隐马尔可夫模型将潜在状态约束为条件独立于前一时间步的其他状态,并将观测值约束为条件独立于当前时间步的潜在状态,这与许多现实世界因果过程的关系结构非常匹配。显式表示变量之间的稀疏依赖关系提供了各种有效的推理和推理算法,例如消息传递,它在图形模型中跨局部应用公共信息传播过程,从而实现可组合和部分并行,推理程序,可应用于不同尺寸和形状的图形模型。
在本文的剩余部分中,我们通过关系归纳偏置的视角考察了各种深度学习方法,表明现有方法通常带有关系假设,这些假设并不总是明确的或立即明显的。然后,我们提出了一个基于实体和关系的推理的通用框架,我们称之为图网络,用于统一和扩展现有的图形方法,并描述了使用图网络作为构建块构建强大架构的关键设计原则。我们还发布了一个用于构建图网络的开源库,可以在这里找到:github。com/deepmind/graph-nets。
2相关归纳偏置
机器学习和人工智能中具有关系推理能力的许多方法(框1)使用关系归纳偏置。虽然不是一个精确、正式的定义,但我们使用该术语通常指的是归纳偏置(框2),它对学习过程中实体之间的关系和交互施加了约束。
近年来,创新性的新机器学习架构迅速发展,实践者通常遵循一种设计模式,即组合基本构建块,形成更复杂、更深入的计算层次结构和图形。诸如“完全连接”层之类的构建块被堆叠到“多层感知器”(MLP)中,“卷积层”被堆叠到“卷积神经网络”(CNN)中,并且图像处理网络的标准配方通常是由MLP组成的某种CNN。这种层的组合提供了一种特定类型的关系归纳偏置,即分阶段执行计算的分层处理,通常导致输入信号中的信息之间的距离越来越远的交互。正如我们在下面探讨的,构建块本身也带有各种关系归纳偏置(表1)。尽管超出了本文的范围,但深度学习中也使用了各种非相关的归纳偏置:例如,激活非线性、权重衰减、dropout(Srivastava等人,2014年)、批次和层归一化(Ioffe和Szegedy,2015年;Ba等人,2016年)、数据增强、训练课程、,优化算法都对学习的轨迹和结果施加约束。
框2:归纳偏置
学习是通过观察世界和与世界互动来理解有用知识的过程。它涉及到寻找一个解决方案空间,以期为数据提供更好的解释或获得更高的回报。但在许多情况下,有多种同样好的解决方案(古德曼,1955)。归纳偏置允许学习算法将一种解决方案(或解释)优先于另一种解决方案(或解释),与观测数据无关(Mitchell,1980)。在贝叶斯模型中,归纳偏置通常通过先验分布的选择和参数化来表示(Griffiths et al.,2010)。在其他情况下,归纳偏置可能是为了避免过度拟合而添加的正则化项(McClelland,1994),也可能在算法本身的架构中进行编码。归纳偏置通常通过提高样本复杂度来交换灵活性,并且可以通过偏置-方差权衡来理解(Geman et al.,1992)。理想情况下,归纳偏置既可以在不显著降低性能的情况下改进对解决方案的搜索,也可以帮助找到以理想方式概括的解决方案;然而,不匹配的归纳偏置也可能通过引入太强的约束而导致次优性能。
归纳偏置可以表示关于数据生成过程或解决方案空间的假设。例如,当将一维函数拟合到数据时,线性最小二乘法遵循近似函数为线性模型的约束,并且在二次惩罚下近似误差应最小。这反映了一种假设,即数据生成过程可以简单地解释为被加性高斯噪声破坏的线性过程。类似地,L2正则化优先考虑参数值较小的解,并且可以为其他不适定问题引入唯一解和全局结构。这可以解释为关于学习过程的一个假设:当解决方案之间的歧义较少时,寻找好的解决方案更容易。注意,这些假设不需要明确,它们反映了对模型或算法如何与世界交互的解释。
为了探索各种深度学习方法中表达的关系归纳偏置,我们必须确定几个关键成分,类似于方框1中的成分:什么是实体,什么是关系,组成实体和关系的规则是什么,以及计算它们的含义?在深度学习中,实体和关系通常表示为分布式表示,规则表示为神经网络函数逼近器;然而,实体、关系和规则的精确形式因架构而异。为了理解架构之间的这些差异,我们可以进一步询问每种架构如何通过探测来支持关系推理:
◦ 规则函数的参数(例如,提供哪些实体和关系作为输入)。
◦ 如何在计算图中重用或共享规则函数(例如,在不同的实体和关系中,在不同的时间或处理步骤中,等等)。
◦ 架构如何定义表示之间的交互与隔离(例如,通过应用规则得出有关相关实体的结论,而不是单独处理它们)。
2.1标准深度学习构建块中的关系归纳偏置
2.1.1完全连接的层
也许最常见的构造块是完全连接的层(Rosenblatt,1961)。通常实现为向量输入的非线性向量值函数,输出向量的每个元素或“单位”是权重向量(后跟附加偏置项)和最终非线性(例如校正线性单位(ReLU))之间的点积。因此,实体是网络中的单元,关系是all to all(层i中的所有单元都连接到层j中的所有单元),规则由权重和偏置指定。该规则的参数是完整的输入信号,没有重用,也没有信息隔离(图1a)。因此,在完全连接的层中,隐含的关系归纳偏置非常弱:所有输入单元都可以相互作用,独立地跨输出确定任何输出单元的值(表1)。
2.1.2个卷积层
另一个常见的构造块是卷积层(Fukushima,1980;LeCun等人,1989)。它通过将输入向量或张量与相同秩的核卷积、添加偏置项以及应用逐点非线性来实现。这里的实体仍然是单独的单位(或网格元素,例如像素),但关系更为稀疏。完全连接层和卷积层之间的差异造成了一些重要的关系归纳偏置:局部性和平移不变性(图1b)。局部性反映了关系规则的参数是那些在输入信号的坐标空间中彼此非常接近、与远端实体隔离的实体。平移不变性反映了在输入的不同位置重复使用相同的规则。这些偏置对于处理自然图像数据非常有效,因为局部邻域内的协方差很高,随着距离的增加而减小,并且统计数据在整个图像中大部分是固定的(表1)。
2.1.3个递归层
第三个常用构建块是递归层(Elman,1990),它通过一系列步骤实现。在这里,我们可以将每个处理步骤的输入和隐藏状态视为实体,将一个步骤的隐藏状态对前一个隐藏状态和当前输入的马尔可夫依赖性视为关系。组合实体的规则将步骤的输入和隐藏状态作为参数来更新隐藏状态。该规则在每个步骤中都被重复使用(图1c),这反映了时间不变性的相关归纳偏置(类似于CNN在空间中的平移不变性)。例如,某些物理事件序列的结果不应取决于一天中的时间。RNN还通过其马尔可夫结构(表1)在序列中带有局部性偏置。
2.2集合和图形的计算
虽然标准的深度学习工具包包含具有各种形式的关系归纳偏置的方法,但没有在任意关系结构上操作的“默认”深度学习组件。我们需要具有实体和关系的显式表示的模型,以及能够找到计算它们的交互规则的学习算法,以及将它们建立在数据基础上的方法。重要的是,世界上的实体(如对象和代理)没有自然秩序;相反,排序可以通过其关系的属性来定义。例如,一组对象的大小之间的关系可以潜在地用于对它们进行排序,它们的质量、年龄、毒性和价格也是如此。除了关系之外,对顺序的不变性是一种属性,理想情况下,这种属性应该通过关系推理的深度学习组件反映出来。
集合是由顺序未定义或无关的实体描述的系统的自然表示;特别是,他们的关系归纳偏置不是来自于某件事的存在,而是来自于某件事的缺失。为了说明,考虑由N行星组成的太阳系的质量中心的预测任务,其属性(例如质量、位置、速度等)由{x1,x2,…,xn}表示。对于这样的计算,我们考虑行星的顺序并不重要,因为状态只能用聚集的、平均的量来描述。然而,如果我们将MLP用于此任务,学习特定输入(x1,x2,…,xn)的预测不一定会转移到以不同顺序(xn,x1,…,x2)对相同输入进行预测。因为有n!这种可能的排列,在最坏的情况下,MLP可以考虑每个排序是根本不同的,因此需要指数数量的输入/输出训练实例来学习近似函数。处理这种组合爆炸的自然方法是只允许预测依赖于输入属性的对称函数。这可能意味着计算每个对象共享的特征{f(x1),…,f(xn)},然后以对称方式聚合这些特征(例如,通过取它们的平均值)。这种方法是深集和相关模型的精髓(Zaheer等人,2017年;Edwards和Storkey,2016年;Pevn`y和Somol,2017年),我们将在第4.2节中进一步探讨。3.
当然,在许多问题中,排列不变性并不是底层结构的唯一重要形式。例如,集合中的每个对象都可能受到与集合中其他对象成对交互的影响(Hartford等人,2018)。在我们的行星场景中,现在考虑在一个时间间隔之后预测每个行星的位置的任务,∆t、 在这种情况下,使用聚合平均信息是不够的,因为每个行星的运动取决于其他行星对其施加的力。相反,我们可以将每个物体的状态计算为x0i=f(xi,Pj g(xi,xj)),其中g可以计算第i颗行星上第j颗行星产生的力,f可以计算第i颗行星的未来状态,该状态由力和动力学产生。事实上,我们在任何地方都使用相同的g,这也是系统的全局置换不变性的结果;但是,它也支持不同的关系结构,因为g现在接受两个参数而不是一个参数。4.
上面的太阳系例子说明了两种关系结构:一种是没有关系的,另一种是由所有成对关系组成的。然而,许多现实世界的系统(如图2)在这两个极端之间的某个地方有一个关系结构,一些实体对拥有关系,而另一些实体则没有关系。在我们太阳系的例子中,如果系统由行星及其卫星组成,人们可能会忽略不同行星的卫星之间的相互作用,从而试图对其进行近似计算。实际上,这意味着只计算某些对象对之间的交互,即x0i=f(xi,Pj∈δ(i)g(xi,xj)),其中δ(i)⊆ {1,…,n}是节点i周围的一个邻域。这对应于一个图,因为第i个对象仅与由其邻域描述的其他对象的子集交互。注意,更新后的状态仍然不依赖于我们描述邻域的顺序。5.
一般来说,图是一种支持任意(成对)关系结构的表示,图上的计算提供了一种强大的关系归纳偏置,超出了卷积层和递归层所能提供的。
3图网络
在“图形神经网络”的保护下(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年),对在图形上运行并相应构造其计算的神经网络进行了十多年的开发和广泛探索,但近年来其范围和普及度迅速增长。我们将在下一小节(3.1)中对这些方法的文献进行综述。然后在剩下的小节中,我们介绍了我们的图网络框架,它概括和扩展了这一领域的几行工作。
3.1背景
图形神经网络家族中的模型(Gori等人,2005年;Scarselli等人,2005年,2009年a;Li等人,2016年)已经在不同的问题领域进行了探索,包括监督、半监督、无监督和强化学习设置。它们在被认为具有丰富关系结构的任务中非常有效,例如视觉场景理解任务(Raposo等人,2017年;Santoro等人,2017年)和few-shot学习(Garcia和Bruna,2018年)。它们还被用于学习物理系统的动力学(Battaglia等人,2016;Chang等人,2017;Watters等人,2017;van Steenkiste等人,2018;Sanchez Gonzalez等人,2018)和多智能体系统(Sukhbatar等人,2016;Hoshen,2017;Kipf等人,2018),推理知识图(Bordes等人,2013年;O〜noro Rubio等人,2017年;Hamaguchi等人,2017年),预测分子的化学性质(Duvenaud等人,2015年;Gilmer等人,2017年),预测道路交通(Li等人,2017年;Cui等人,2018年),对图像和视频(Wang等人,2018c;Hu等人,2017)以及三维网格和点云(Wang等人,2018d)进行分类和分割,对图像中的区域进行分类(Chen等人,2018a),执行半监督文本分类(Kipf和Welling,2017),以及机器平移(Vaswani等人,2017年;Shaw等人,2018年;Gulcehre等人,2018年)。它们被用于无模型(Wang等人,2018b)和基于模型(Hamrick等人,2017;Pascanu等人,2017;Sanchez-Gonzalez等人,2018)的连续控制、无模型强化学习(Hamrick等人,2018;Zambaldi等人,2018)以及更经典的规划方法(Toyer等人,2017)。
许多涉及离散实体和结构推理的传统计算机科学问题也已通过图形神经网络进行了探索,如组合优化(Bello et al.,2016;Nowak et al.,2017;Dai et al.,2017)、布尔可满足性(Selsam et al.,2018),程序表示和验证(Allamanis等人,2018;Li等人,2016),细胞自动机和图灵机建模(Johnson,2017),以及在图形模型中执行推理(Yoon等人,2018)。最近的工作还侧重于建立图的生成模型(Li等人,2018;De Cao和Kipf,2018;You等人,2018;Bojchevski等人,2018),以及图嵌入的无监督学习(Perozzi等人,2014;Tang等人,2015;Grover和Leskovec,2016;Garcıa-Dur'an和Niepert,2017)。
上面引用的工作绝不是一个详尽的列表,而是提供了图形神经网络已被证明有用的领域宽度的代表性横截面。我们向感兴趣的读者介绍了一些现有的评论,这些评论更深入地研究了图形神经网络的工作。特别是,Scarselli等人(2009a)提供了早期图形神经网络方法的权威概述。Bronstein等人(2017年)对非欧几里德数据的深度学习进行了出色的调查,并探索了图形神经网络、图形卷积网络和相关光谱方法。最近,Gilmer等人(2017)介绍了消息传递神经网络(MPNN),通过类比图形模型中的信息传递,统一了各种图形神经网络和图形卷积网络方法(Monti et al.,2017;Bruna et al.,2014;Henaff et al.,2015;Defferard et al.,2016;Niepert et al.,2016;Kipf and Welling,2017;Bronstein et al.,2017)。类似地,Wang et al.(2018c)引入了非局部神经网络(NLNN),该网络通过类比计算机视觉和图形模型的方法,统一了各种“自注意”式方法(Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018),用于捕获信号中的长距离依赖性。
3.2图网络(GN)块
现在,我们提出了我们的图网络(GN)框架,它定义了一类用于图结构表示的关系推理的函数。我们的GN框架概括和扩展了各种图形神经网络、MPNN和NLNN方法(Scarselli等人,2009a;Gilmer等人,2017;Wang等人,2018c),并支持从简单的构建块构建复杂的架构。注意,我们避免在“图网络”标签中使用术语“神经”,以反映它们可以用神经网络以外的函数实现,尽管这里我们的重点是神经网络实现。
GN框架中的主要计算单元是GN块,这是一个“图对图”模块,它将图形作为输入,对结构执行计算,并将图形作为输出返回。如框3所述,实体由图的节点表示,关系由边表示,系统级属性由全局属性表示。GN框架的块组织强调可定制性和合成新架构,以表达所需的关系归纳偏置。关键的设计原则是:灵活的表示(见第4.1节);在区块结构内可配置(见第4.2节);和可组合的多块架构(见第4.3节)。
我们将介绍一个激励示例,以帮助使GN形式主义更具体。考虑在任意重力场中预测一组橡胶球的运动,而不是相互碰撞,每一个都有一个或多个弹簧将它们连接到一些(或全部)其它的。我们将在下面的定义中引用这个运行示例,以激发图形表示和在其上运行的计算。图2描述了一些其他常见场景,这些场景可以用图形表示,并使用图网络进行推理。
3.2.1“图形”的定义
在我们的GN框架中,图被定义为3元组G=(u,V,E)(有关图表示的详细信息,请参见框3)。u是一个全局属性;例如,u可能代表重力场。V={vi}i=1:Nv是节点集(基数Nv),其中每个vi是节点的属性。例如,V可以表示每个球,具有位置、速度和质量属性。E={(ek,rk,sk)}k=1:Ne是边的集合(基数Ne),其中每个ek是边的属性,rk是接收方节点的索引,sk是发送方节点的索引。例如,E可能表示不同球之间存在弹簧,以及相应的弹簧常数。
方框3:我们对“图”的定义
这里,我们使用“图”来表示具有全局属性的有向、有属性的多重图。在我们的术语中,节点表示为vi,边表示为ek,全局属性表示为u。我们还使用sk和rk分别表示边k的发送方和接收方节点的索引(见下文)。更准确地说,我们将这些术语定义为:定向:单向边,从“发送方”节点到“接收方”节点。属性:可以编码为向量、集合甚至其他图形的属性。属性化:边和顶点具有与其关联的属性。全局属性:图形级属性。多图:顶点之间可以有多条边,包括自边。图2显示了与我们可能对建模感兴趣的真实数据相对应的各种不同类型的图形,包括物理系统、分子、图像和文本。
3.2.2 GN块的内部结构
GN块包含三个“更新”函数φ和三个“聚合”函数ρ,
其中E0i={(e0k,rk,sk)}rk=i,k=1:Ne,v0={v0i}i=1:Nv,E0=Si E0i={(e0k,rk,sk)}k=1:Ne。φe跨所有边映射以计算每边更新,φv跨所有节点映射以计算每节点更新,φu作为全局更新应用一次。ρ函数都以一个集合作为输入,并将其简化为表示聚合信息的单个元素。关键的是,ρ函数必须对其输入的排列保持不变,并且应采用可变数量的参数(例如,元素求和、平均值、最大值等)。
3.2.GN块内的3个计算步骤
当图形G作为GN块的输入提供时,计算从边开始,到节点,再到全局级别。图3显示了每个计算中涉及的图形元素,图4a显示了完整的GN块及其更新和聚合功能。算法1显示了以下计算步骤:
1.φe应用于每条边,带有参数(ek、vrk、vsk、u),并返回e0k。在我们的例子中,这可能对应于两个相连的球之间的力或势能。每个节点i的结果每边输出集是E0i={(e0k,rk,sk)}rk=i,k=1:Ne。E0=Si E0i={(e0k,rk,sk)}k=1:Ne是所有每边输出的集合。
2.ρe→v应用于E0i,并将投影到顶点i的边的边更新聚合到“E0i”中,该更新将在下一步的节点更新中使用。在我们的运行示例中,这可能对应于作用在第i个球上的所有力或势能的总和。
3.φv应用于每个节点i,以计算更新的节点属性v0i。在我们的跑步示例中,φv可以计算类似于每个球的更新位置、速度和动能。每节点输出的结果集是,v0={v0i}i=1:Nv。
4.ρe→u应用于E0,并将所有边缘更新聚合为“E0”,然后在下一步的全局更新中使用。在我们的运行示例中,ρe→u可以计算合力(在这种情况下,根据牛顿第三定律,合力应为零)和弹簧的势能。
5.ρv→u应用于V0,并将所有节点更新聚合到“V0”,然后将在下一步的全局更新中使用。在我们的运行示例中,ρv→u可以计算系统的总动能。
6.φu对每个图形应用一次,并计算全局属性u0的更新。在我们的运行示例中,φu可能计算出与物理系统的净力和总能量类似的东西。
注意,尽管我们在这里假设了这一系列步骤,但顺序并没有严格执行:例如,可以反转更新函数,从全局更新到每节点更新,再到每边更新。Kearnes等人(2016年)以类似的方式计算节点的边缘更新。
3.2.图网络中的4个关系归纳偏置
我们的GN框架在用作学习过程中的组件时施加了几个强关系归纳偏置。首先,图形可以表示实体之间的任意关系,这意味着GN的输入决定表示如何交互和隔离,而不是由固定的架构决定这些选择。例如,假设两个实体具有关系,因此应该相互作用,这一假设由实体对应节点之间的边表示。类似地,缺少边表示节点之间没有关系且不应直接影响彼此的假设。
第二,图将实体及其关系表示为集合,集合对置换是不变的。这意味着GNs对这些元素的顺序保持不变6,这通常是可取的。例如,场景中的对象没有自然顺序(请参见第2.2节)。
第三,GN的每边和每节点函数分别在所有边和节点上重用。这意味着GNs自动支持一种组合泛化形式(见第5.1节):因为图形由边、节点和全局特征组成,单个GN可以对不同大小(边和节点数量)和形状(边连通性)的图形进行操作。
4图网络架构的设计原则
根据上文第3.2节中列出的设计原则,GN框架可用于实现多种架构,这些原则也对应于下文的小节(4.1、4.2和4.3)。一般来说,该框架对特定的属性表示和函数形式是不可知的。然而,在这里,我们主要注意深度学习架构,它允许GNs充当可学习的图到图函数近似器。
4.1灵活表述
图网络以两种方式支持高度灵活的图表示:第一,在属性表示方面;第二,关于图本身的结构。
4.1.1属性
GN块的全局、节点和边属性可以使用任意表示格式。在深度学习实现中,实值向量和张量是最常见的。但是,也可以使用其他数据结构,例如序列、集合甚至图形。
问题的需求通常会决定属性应该使用什么表示。例如,当输入数据是图像时,属性可以表示为图像图块的张量;然而,当输入数据是文本文档时,属性可能是对应于句子的单词序列。
对于更广泛架构内的每个GN块,边缘和节点输出通常对应于向量或张量列表,每个边缘或节点一个,全局输出对应于单个向量或张量。这允许GN的输出被传递到其他深度学习构建块,如MLP、CNN和RNN。
GN块的输出也可以根据任务的需求进行调整。特别地,
◦ 注意边缘的GN使用边缘作为输出,例如,对实体之间的交互做出决策(Kipf等人,2018年;Hamrick等人,2018年)。
◦ 以节点为中心的GN使用节点作为输出,例如对物理系统进行推理(Battaglia等人,2016;Chang等人,2017;Wang等人,2018b;Sanchez Gonzalez等人,2018)。
◦ 聚焦于图形的GN使用全局作为输出,例如预测物理系统的势能(Battaglia et al.,2016)、分子的性质(Gilmer et al.,2017)或对视觉场景问题的回答(Santoro et al.,2017)。
节点、边和全局输出也可以根据任务进行混合和匹配。例如,Hamrick et al.(2018)使用输出边缘和全局属性来计算针对行动的策略。
4.1.2图结构
在定义如何将输入数据表示为图形时,通常有两种情况:第一,输入明确指定关系结构;其次,必须推断或假设关系结构。这些并不是严格的区分,而是一个连续统的极端。
具有更明确指定实体和关系的数据示例包括知识图、社交网络、解析树、优化问题、化学图、道路网络和具有已知交互的物理系统。图2a-d说明了如何将此类数据表示为图形。
关系结构不明确且必须推断或假设的数据示例包括可视场景、文本语料库、编程语言源代码和多代理系统。在这些类型的设置中,数据可以被格式化为一组没有关系的实体,或者甚至只是向量或张量(例如,图像)。如果未明确指定实体,则可以假设它们,例如,通过将句子中的每个单词(Vaswani et al.,2017)或CNN输出特征图中的每个局部特征向量视为节点(Watters et al.,2017;Santoro et al.,2017;Wang et al.,2018c)(图2e-f)。或者,可以使用单独的学习机制从非结构化信号中推断实体(Luong等人,2015年;Mnih等人,2014年;Eslami等人,2016年;van Steenkiste等人,2018年)。如果关系不可用,最简单的方法是实例化实体之间所有可能的有向边(图2f)。然而,这对于大量实体来说是禁止的,因为可能的边的数量随着节点的数量呈二次增长。因此,开发从非结构化数据推断稀疏结构的更复杂方法(Kipf et al.,2018)是一个重要的未来方向。
4.2在块结构内可配置
GN块中的结构和功能可以以不同的方式配置,这提供了灵活性,可以将哪些信息作为其功能的输入,以及如何生成输出边缘、节点和全局更新。特别是,方程1中的每个φ都必须用函数f来实现,其中f的参数签名决定了它需要什么样的信息作为输入;在图4中,每个φ的输入箭头表示是否将u、V和E作为输入。Hamrick等人(2018年)和Sanchez Gonzalez等人(2018年)使用了图4a所示的完整GN块。他们的φ实现使用了神经网络(下面表示为NNe、NNv和NNu,以表明它们是具有不同参数的不同函数)。他们的ρ实现使用元素求和,但也可以使用平均值和max/min,其中[x,y,z]表示向量/张量串联。对于向量属性,MLP通常用于φ,而对于张量(如图像特征贴图),CNN可能更适合。
φ函数也可以使用RNN,这需要额外的隐藏状态作为输入和输出。图4b显示了一个非常简单的GN块版本,其中RNN作为φ函数:在这个公式中没有消息传递,这种类型的块可能用于某些动态图形状态的循环平滑。当然,RNN作为φ函数也可以在完整的GN块中使用(图4a)。
各种其他架构可以在GN框架中表示,通常是不同的功能选择和块内配置。剩下的小节将探讨如何以不同的方式配置块结构中的GN,并举例说明使用此类配置的已发布作品。详情见附录。
4.2.1消息传递神经网络(MPNN)
Gilmer等人(2017年)的MPNN概括了许多以前的架构,可以自然地转化为GN形式主义。遵循MPNN论文的术语(见Gilmer等人(2017),第2-4页):
◦ 消息函数Mt起GNφe的作用,但不将u作为输入,
◦ 元素相加用于GN的ρe→五、◦ 更新函数Ut起着GN的φv的作用,
◦ 读出函数R起着GN的φu的作用,但不将u或E0作为输入,因此是对GN的ρe的模拟→u不是必需的;
◦ dmaster的用途与GN的u大致相似,但定义为连接到所有其他节点的额外节点,因此不会直接影响边缘和全局更新。然后可以在GN的V中表示它。
图4c显示了MPNN是如何根据GN框架构建的。有关详细信息和各种MPNN架构,请参见附录。
4.2.2非局部神经网络(NLNN)
Wang et al.(2018c)的NLNN统一了各种“内部/自/顶点/图形注意”方法(Lin et al.,2017;Vaswani et al.,2017;Hoshen,2017;Veliˇckovi'c et al.,2018;Shaw et al.,2018),也可以转化为GN形式主义。标签“注意”是指节点如何更新:每个节点更新都基于其邻居的节点属性(某些函数)的加权和,其中节点与其一个邻居之间的权重由其属性之间的标量成对函数计算(然后在邻居之间归一化)。已发布的NLNN形式不明确包含边,而是计算所有节点之间的成对注意权重。但各种符合NLNN的模型,如顶点注意交互网络(Hoshen,2017)和图形注意网络(Veliˇckovi'c等人,2018),能够通过有效地将不共享边的节点之间的权重设置为零来处理显式边。
如图4d和图5所示,φe被分解成标量成对相互作用函数,该函数返回非归一化注意项,表示为αe(vrk,vsk)=a0k,以及向量值非成对项,表示为βe(vsk)=b0k。在ρe中→v聚合时,a0k项在每个接收器的边缘进行归一化,b0k和元素相加:
在NLNN论文的术语中(见Wang等人(2018c),第2-4页):
◦ 它们的f起着上述α的作用,
◦ 其g起上述β的作用。
此公式可能有助于仅注意与下游任务最相关的交互,尤其是当输入实体是一个集合时,通过在它们之间添加所有可能的边形成一个图形。
Vaswani等人(2017年)的多头自注意机制增加了一个有趣的特征,其中φe和ρe→v由一组并行函数实现,其结果作为ρe的最后一步连接在一起→五、这可以解释为使用类型化边,其中不同类型索引到不同的φe分量函数,类似于Li等人(2016)。
有关详细信息和各种NLNN架构,请参见附录。
4.2.3其他图网络变体
如第4.1节所述,完整GN(方程式2)可用于预测完整图或(u0,v0,E0)的任何子集。1.例如,要预测图的全局属性,可以忽略v0和E0。类似地,如果输入中未指定全局、节点或边属性,则这些向量的长度可以为零,即不作为显式输入参数。同样的想法也适用于不使用全套映射(φ)和归约(ρ)函数的其他GN变体。例如,交互网络(Battaglia et al.,2016;Watters et al.,2017)和神经物理引擎(Chang et al.,2017)使用完整的GN,但由于缺乏全局更新边缘属性(详见附录)。
各种模型,包括CommNet(Sukhbatar et al.,2016)、structure2vec(Dai et al.,2016)(在(Dai et al.,2017)的版本中)和门控图序列神经网络(Li et al.,2016)都使用了φe,它不直接计算成对交互,而是忽略接收节点,仅在发送方节点上操作,在某些情况下为边缘属性。这可以通过φe的实现来表示,具有以下签名,例如:
详见附录。
关系网络(Raposo et al.,2017;Santoro et al.,2017)完全绕过节点更新,直接从汇集的边缘信息预测全局输出(见图4e),
深度集(Zaheer et al.,2017)完全绕过边缘更新,直接从集合节点信息预测全局输出(图4f),
PointNet(Qi等人,2017年)使用类似的更新规则,ρv的最大聚合→u和两步节点更新。
4.3可组合多块架构
图网络的一个关键设计原则是通过组合GN块来构造复杂的架构。我们将GN块定义为始终将由边、节点和全局元素组成的图作为输入,并返回具有相同组成元素的图作为输出(当这些元素未显式更新时,只需将输入元素传递到输出)。该图对图输入/输出接口确保一个GN块的输出可以作为输入传递给另一个GN块,即使它们的内部配置不同,类似于标准深度学习工具包的张量对张量接口。在最基本的形式中,两个GN块GN1和GN2可以组成GN1◦ 通过将第一个的输出作为输入传递给第二个:G0=GN2(GN1(G))。
可以组成任意数量的GN块,如图6a所示。这些块可以是非共享的(不同的函数和/或参数,类似于CNN的层),GN1=GN2=··6=GNM,或共享的(重用的函数和参数,类似于展开的RNN),GN1=GN2=·GNM。图6a中GNcore周围的白色框表示M个重复的内部处理子步骤,其中包含共享或非共享GN块。共享配置类似于消息传递(Gilmer et al.,2017),其中重复应用相同的本地更新过程以在整个结构中传播信息(图7)。如果我们排除全局u(它聚合来自节点和边的信息),则节点在m个传播步骤后可以访问的信息由最多m个跳跃的节点和边集确定。这可以解释为将复杂的计算分解为更小的基本步骤。这些步骤也可用于及时捕获顺序性。在我们的球弹簧示例中,如果每个传播步骤预测持续时间的一个时间步骤的物理动力学∆t、 然后,M个传播步骤导致总模拟时间M·∆T
一种常见的架构设计是我们所称的编码过程解码配置(Hamrick等人(2018年);另请参见图6ba):输入图Ginp通过编码器GNenc转换为潜在表示G0;共享核心块GNcore被应用M次以返回GM;最后,输出图形Gout由GNdec解码。例如,在我们的运行示例中,编码器可能会计算球之间的初始力和交互能量,核心可能会应用基本动力学更新,解码器可能会从更新的图形状态中读取最终位置。
与编码-处理-解码设计类似,通过维护隐藏图Gt hid,将观察图Gt inp作为输入,并在每个步骤上返回输出图Gt out,可以构建基于GN的循环架构(见图6c)。这种类型的架构对于预测图形序列特别有用,例如预测动态系统随时间的轨迹(例如Sanchez-Gonzalez等人,2018)。由GNenc输出的编码图形必须具有与Gt hid相同的结构,并且在传递到GNcore之前,可以通过连接其相应的ek、vi和u向量(其中向上箭头合并到图6c中的左侧水平箭头)轻松组合它们。对于输出,Gt hid被复制(图6c中右侧水平箭头拆分为向下箭头)并由GNdec解码。该设计以几种方式重用GN块:GNenc、GNdec和GNcore在每个步骤中共享,t;在每个步骤中,GNcore可以执行多个共享子步骤。
用于设计基于GN的架构的各种其他技术可能很有用。例如,Graph skip connections会在继续进一步计算之前将GN块的输入图Gm与其输出图Gm+1连接起来。如图6c所示,合并和平滑输入和隐藏的图形信息可以使用LSTM或GRU样式的选通方案,而不是简单的串联(Li等人,2016)。或者,可以在其他GN块之前和/或之后组合不同的重复GN块(如图4b),以提高多个传播步骤中表示的稳定性(Sanchez-Gonzalez et al.,2018)。
4.4在代码中实现图网络
与自然可并行(例如在GPU上)的CNN(见图1)类似,GNs具有自然并行结构:由于方程1中的φe和φv函数分别在边和节点上共享,因此可以并行计算。实际上,这意味着对于φe和φv,节点和边可以像典型的小批量训练模式中的批量维度一样处理。此外,通过将多个图视为较大图的不相交部分,可以将它们自然地批处理在一起。通过一些额外的簿记,这允许将在几个独立图形上进行的计算批处理在一起。
重用φe和φv也提高了GNs的采样效率。同样,与卷积核类似,用于优化GN的φe和φv函数的样本数分别是所有训练图中的边和节点数。例如,在Sec的球示例中。3.2,一个有四个球的场景,所有球都由弹簧连接,将提供它们之间接触交互的十二(4×3)个示例。
我们发布了一个用于构建GNs的开源软件库,可以在这里找到:github。com/deepmind/graph-nets。有关概述,请参见方框4。
方框4:Graph Nets开源软件库:github。com/deepmind/graph-nets
我们发布了一个开源库,用于在Tensorflow/Sonnet中构建GNs。它包括如何在最短路径查找任务、排序任务和物理预测任务中创建、操作和训练GNs对图形结构化数据进行推理的演示。每个演示都使用相同的GN架构,这突出了该方法的灵活性。
最短路径演示:tinyurl。com/gn最短路径演示
此演示创建随机图,并训练GN标记任意两个节点之间最短路径上的节点和边。通过一系列消息传递步骤(如每个步骤的图所示),该模型改进了对最短路径的预测。
排序演示:tinyurl。com/gn排序演示
此演示创建随机数列表,并训练GN对列表进行排序。在一系列消息传递步骤之后,模型准确预测哪些元素(图中的列)紧随其后(行)。
物理演示:tinyurl。com/gn物理演示
此演示创建随机质量弹簧物理系统,并训练GN预测下一时间步系统的状态。模型的下一步预测可以作为输入反馈,以创建未来轨迹的展开。下面的每个子图显示了超过50个时间步的真实和预测的质量弹簧系统状态。这类似于(Battaglia等人,2016年)的“互动网络”中的模型和实验。
4.5摘要
在本节中,我们讨论了图网络背后的设计原则:灵活的表示、块结构内的可配置以及可组合的多块架构。这三个设计原则结合在我们的框架中,非常灵活,适用于感知、语言和符号推理等广泛领域。而且,正如我们将在本文的其余部分中看到的,图网络所具有的强关系归纳偏置支持组合泛化,从而使其在实现和理论方面都成为一个强大的工具。
5讨论
在本文中,我们分析了关系归纳偏置在深度学习架构(如MLP、CNN和RNN)中的存在程度,并得出结论,尽管CNN和RNN确实包含关系归纳偏置,但它们无法自然地处理更结构化的表示,如集或图。我们主张通过强调一种被称为图网络的未充分利用的深度学习构建块,在深度学习架构中构建更强的关系归纳偏置,该构建块对图形结构化数据执行计算。我们的图网络框架统一了也在图形上运行的现有方法,并为将图网络组装成复杂、复杂的架构提供了一个简单的接口。
5.1图网络中的组合推广
GNs的结构自然支持组合泛化,因为它们不严格在系统级执行计算,但也在实体和关系之间应用共享计算。这使得人们可以对从未见过的系统进行推理,因为它们是由熟悉的组件构建而成的,反映了冯·洪堡的“有限手段的无限使用”(洪堡,1836年;乔姆斯基,1965年)。
许多研究探索了GNs的组合泛化能力。Battaglia等人(2016年)发现,接受过一步物理状态预测训练的GNs可以模拟未来数千个时间步,还可以向物理系统展示准确的零炮转移,其实体数量是训练期间的两倍或一半。Sanchez Gonzalez等人(2018)在更复杂的物理控制设置中发现了类似的结果,包括在模拟多关节代理上训练为正向模型的GNs可以推广到具有新关节数的代理。Hamrick et al.(2018)和Wang et al.(2018b)都发现基于GN的决策政策也可以转移到新数量的实体。在组合优化问题中,Bello等人(2016);诺瓦克等人(2017年);戴等(2017);Kool和Welling(2018)表明,GNs可以很好地推广到与他们接受过训练的问题规模大不相同的问题。类似地,Toyer等人(2017年)对不同规模的规划问题进行了概括,Hamilton等人(2017年)对以前未看到的数据生成有用的节点嵌入进行了概括。关于布尔SAT问题,Selsam et al.(2018)证明了对不同问题规模和跨问题分布的泛化:在强烈修改输入图的分布及其典型局部结构后,他们的模型保持了良好的性能。考虑到GNs以实体和关系为中心的组织,这些组合泛化的显著例子并不完全令人惊讶,但仍然为以下观点提供了重要支持:拥抱明确的结构和灵活的学习是实现现代人工智能中更好的样本效率和泛化的可行方法。
5.2图网络的限制
GNs和MPNNs的学习消息传递形式(Shervashidze et al.,2011)的一个限制是,它不能保证解决某些类别的问题,例如区分某些非同构图。Kondor等人(2018年)建议最好使用协变7(Cohen和Welling,2016;Kondor和Trivedi,2018),而不是节点和边的排列不变性,并提出了“协变成分网络”,它可以保留结构信息,并允许仅在需要时忽略它。
更一般地说,尽管图形是表示结构信息的一种强大方式,但它们也有局限性。例如,递归、控制流和条件迭代等概念不容易用图形表示,而且至少需要额外的假设(例如,在解释抽象语法树时)。程序和更多“类似计算机”的处理可以提供与这些概念相关的更大的代表性和计算表达能力,一些人认为它们是人类认知的重要组成部分(Tenenbaum et al.,2011;Lake et al.,2015;Goodman et al.,2015)。
5.3开放性问题
尽管我们对图网络可能产生的潜在影响感到兴奋,但我们警告说,这些模型只是向前迈出了一步。实现图网络的全部潜力可能比在一个框架下组织它们的行为更具挑战性,事实上,关于使用图网络的最佳方式,存在许多尚未回答的问题。
一个紧迫的问题是:图网络从何而来?深度学习的一个特点是它能够对原始感官数据(如图像和文本)执行复杂的计算,但目前尚不清楚将感官数据转换为图形等更结构化表示的最佳方法。一种方法(我们已经讨论过)假设空间或语言实体之间存在完全连通的图形结构,如关于自注意的文献(Vaswani et al.,2017;Wang et al.,2018c)。然而,这种表示可能不完全对应于“真实”实体(例如,卷积特征不直接对应于场景中的对象)。此外,许多底层图结构比完全连通图要稀疏得多,如何归纳这种稀疏性是一个悬而未决的问题。一些活跃的研究正在探索这些问题(Watters等人,2017年;van Steenkiste等人,2018年;Li等人,2018年;Kipf等人,2018年),但到目前为止,还没有一种方法能够可靠地从感官数据中提取离散实体。开发这样一种方法对未来的研究来说是一个令人兴奋的挑战,一旦解决,可能会为更强大、更灵活的推理算法打开大门。
一个相关的问题是如何在计算过程中自适应地修改图结构。例如,如果一个对象拆分为多个片段,则表示该对象的节点也应拆分为多个节点。类似地,仅表示接触对象之间的边可能很有用,因此需要能够根据上下文添加或删除边。如何支持这种适应性的问题也在积极研究中,特别是用于识别图形底层结构的一些方法可能适用(例如,Li等人,2018年;Kipf等人,2018年)。
人类认知强烈地假设世界是由对象和关系组成的(Spelke和Kinzler,2007),由于GNs做出了类似的假设,它们的行为往往更易于解释。GNs操作的实体和关系通常对应于人类理解的事物(如物理对象),从而支持更可解释的分析和可视化(如Selsam et al.,2018)。未来工作的一个有趣方向是进一步探索图网络行为的可解释性。
5.4学习和结构的综合方法
虽然我们在这里的重点一直是图形,但本文中的一个收获不是关于图形本身,而是关于将强大的深度学习方法与结构化表示相结合的方法。我们对其他类型的结构化表示和计算的相关方法感到兴奋,例如语言树(Socher等人,2011a,b,2012,2013;Tai等人,2015;Andreas等人,2016),状态动作图中的部分树遍历(Guez等人,2018;Farquhar等人,2018),分层行动政策(Andreas等人,2017年)、多代理沟通渠道(Foerster等人,2016年)、“胶囊”(Sabour等人,2017年)和计划(Parisotto等人,2017年)。其他方法试图通过模拟计算机中的关键硬件和软件组件以及它们如何在彼此之间传输信息来捕获不同类型的结构,例如持久时隙存储、寄存器、内存I/O控制器、堆栈、,和排队(例如Dyer等人,2015年;Grefenstette等人,2015年;Joulin和Mikolov,2015年;Sukhbatar等人,2015年;Kurach等人,2016年;Graves等人,2016年)。
5.5结论
在深度学习的推动下,人工智能的最新进展已经在许多重要领域发生了变革。尽管如此,人类和机器智能之间仍然存在巨大的差距,特别是在高效、可推广的学习方面。我们主张将组合泛化作为人工智能的首要任务,并主张采用综合方法,这些方法借鉴了人类认知、传统计算机科学、标准工程实践和现代深度学习的思想。在这里,我们探索了灵活的基于学习的方法,这些方法实现了强关系归纳偏置,以利用显式结构化表示和计算,并提出了一个称为图网络的框架,该框架概括和扩展了应用于图的神经网络的各种最新方法。图网络旨在促进使用可定制的图到图构建块构建复杂架构,它们的关系归纳偏置促进组合泛化,并提高了与其他标准机器学习构建块相比的样本效率。
然而,尽管有其优点和潜力,可学习的图形模型只是人类智能道路上的一块垫脚石。我们对许多其他相关但可能未得到充分重视的研究方向持乐观态度,包括将基于学习的方法与课程相结合(Ritchie等人,2016年;Andreas等人,2016年;Gaunt等人,2016年;Evans和Grefenstette,2018年;Evans等人,2018年),开发以抽象为重点的基于模型的方法(Kansky等人,2017年;Konidaris等人,2018年;Zhang等人,2018年;Hay等人,2018年),加大对元学习的投资(Wang等人,2016年,2018a;Finn等人,2017年),探索多智能体学习和交互作为高级智能的关键催化剂(Nowak,2006;Ohtsuki等人,2006)。这些方向都涉及实体、关系和组合泛化的丰富概念,并且可能受益于与学习显式结构化表示的关系推理方法的更多交互。感谢Tobias Pfaff、Danilo Rezende、Nando de Freitas、Murray Shanahan、Thore Graepel、John Jupper、Demis Hassabis以及更广泛的DeepMind和Google社区提供了宝贵的反馈和支持。
附录:附加模型的公式
在本附录中,我们将给出更多示例,说明已发布的网络如何适应方程式1定义的框架。
交互网络
交互网络(Battaglia et al.,2016;Watters et al.,2017)和神经物理引擎Chang et al.(2017)使用完整的GN,但由于缺少全局更新边缘属性:该工作还包括对上述公式的扩展,该公式输出全局预测,而不是每个节点预测:
非成对相互作用
门控图序列神经网络(GGS-NN)(Li et al.,2016)使用稍微广义的公式,其中每条边都有一个附加类型tk∈ {1,…,T},更新为:
重复应用这些更新(NNv是GRU(Cho等人,2014)),然后是一个全局解码器,该解码器计算嵌入式最终节点状态的加权和。这里,每个NNe、tk都是一个具有特定参数的神经网络。
CommNet(Sukhbatar等人,2016年)(以(Hoshen,2017年)所述的更一般的形式)使用:
基于注意的方法
Transformer架构(Vaswani et al.,2017)中的单头自注意(SA)实现了非局部公式:其中NNα查询、NNα键和NNβ同样是具有不同参数和可能不同架构的神经网络函数。他们还使用一个多标题版本,该版本使用不同的NNα查询h、NNα键h、NNβh计算Nh并行“e0ih”,其中h对不同的参数进行索引。这些将传递给f v并连接:
顶点注意交互网络(Hoshen,2017)与单头SA非常相似,但使用欧几里德距离作为注意相似性度量,在注意输入的嵌入中使用共享参数,并在节点更新功能中使用输入节点功能,
图形注意网络(Veliˇckovi'c et al.,2018)也类似于多头SA,但使用神经网络作为注意相似性度量,在注意输入的嵌入中共享参数:
Shaw等人(2018)扩展了具有相对位置编码的多头SA,超越了特定的非局部公式。“相对”是指序列中节点之间的空间距离编码或度量空间中的其他信号。这可以用GN语言表示为边缘属性ek,并将上述多头SA中的βe(vsk)替换为:
信念传播嵌入
最后,我们简要总结了Dai等人(2016)的通用“structure2vec”算法如何适合我们的框架。为此,我们需要稍微修改主方程1,即:
边缘的特征现在在接收者和发送者之间具有“消息”的含义;请注意,对于边和节点更新,只有一组参数需要学习。