m0_43417517

《How powerful are graph neural networks》论文翻译

作者：Keyulu Xu (MIT)，Weihua Hu(Stanford Universtity)，Jure Leskovec(Stanford Universtity)，Stefanie Jegelka(MIT)

作者Keyulu Xu谷歌学术上可查的论文共12篇，其中以本文达到1414的引用次数，引用总计次数2111次，h指数（所发表的所有论文中有N 篇的引用数超过N 次）和i10指数（所发表的论文中引用次数超过10 次的个数）均为9。

图神经网络所受的启发来自两个方面，一是CNN网络的发展，CNN网络有三个关键特点：局部连接、共享权重和多层结构，这些特点对于解决图论问题非常重要；另一个启发来自图嵌入，在图分析中，传统的机器学习方法通常依赖手动特征工程，并且受限于低灵活性和高成本的问题。图嵌入（graph embedding）旨在学习用低维向量表示图的节点、边或子图。

Justin Gilmer 等人于 2017 年提出了一个涵盖多种图神经网络方法和图卷积网络方法的框架，即消息传播神经网络（message passing neural network，MPNN）。Zonghan Wu 等人将图神经网络分为四类：循环图神经网络、卷积图神经网络、图自编码器，以及时空图神经网络。

摘要

图神经网络（GNNs）是一种有效的图表示学习框架。图神经网络遵循邻域聚合方案，其中节点的表示向量是通过递归地聚合和变换其相邻节点的表示向量来计算的。到目前为止，许多图神经网络的变种也已经被提出，并且在节点和图分类任务上取得了优异的成果。然而，尽管图神经网络彻底改变了图表示学习，但我们对其表示特性和局限性的理解仍然有限。在这里，我们提出了一个理论框架，用于分析 GNN 捕捉不同图结构的表达能力。我们的结果表征了流行的 GNN 变体（例如图卷积网络和 GraphSAGE）的判别能力，并表明它们无法学会去区分某些简单的图结构。我们随后开发了一个简单的架构，可以证明，它是GNNs类中最具表现力，并且与 Weisfeiler-Lehman 图同构测试一样强大。我们凭经验在许多图分类基准数据集上验证了我们的理论发现，并证明我们的模型达到了SOTA的性能。

1、引言

使用图结构数据（例如分子、社会、生物和金融网络）进行学习，需要对其图结构进行有效表示 (Hamilton et al., 2017b)。最近，人们对用于图表示学习的图神经网络 (GNN) 方法产生了浓厚的兴趣(Li et al., 2016; Hamilton et al., 2017a; Kipf & Welling, 2017; Velickovic et al., 2018;Xu et al., 2018)。GNNs广泛遵循递归邻域聚合（或消息传递）方案，其中每个节点聚合其邻居的特征向量以计算其新特征向量(Xu et al., 2018; Gilmer et al., 2017)。经过 k 次聚合迭代后，一个节点由其变换后的特征向量表示，该向量捕获节点 k 跳邻域内的结构信息。然后通过池化（Ying et al.，2018）就可以获得整个图的表示，例如，通过对图中所有节点的表示向量求和。

许多具有不同邻域聚合和图级池化方案的 GNN 变体已经被提出了（Scarselli et al., 2009b; Battaglia et al., 2016; Defferrard et al., 2016; Duvenaud et al., 2015; Hamilton et al., 2017a; Kearnes et al., 2016; Kipf & Welling, 2017; Li et al., 2016; Velickovic et al., 2018; Santoro et al., 2017; Xu et al., 2018; Santoro et al., 2018; Verma & Zhang, 2018; Ying et al., 2018; Zhang et al., 2018）。根据经验，这些 GNN 在节点分类、链接预测和图分类等许多任务中都取得了SOTA的性能。然而，新 GNN 的设计主要基于经验直觉、启发式和实验试错。对 GNN 的特性和局限性的理论理解很少，对 GNN 表示能力的形式分析也很有限。

在这里，我们提出了一个用于分析 GNNs 表示能力的理论框架。我们正式描述了不同 GNN 变体在学习表示和区分不同图结构时的表现力。我们的框架受到 GNNs 与 Weisfeiler-Lehman (WL) 图同构测试 (Weisfeiler & Lehman, 1968) 之间的密切联系的启发，WL测试是一种强大的测试，已知可以区分大多数图 (Babai & Kucera, 1979)。与 GNNs 类似，WL 测试通过聚合其网络邻居的特征向量来迭代更新给定节点的特征向量。 WL 测试之所以如此强大，是原因它的单射聚合更新，其将不同的节点邻域映射到不同的特征向量。我们的主要见解是，如果 GNNs 的聚合方案具有高度表达能力并且可以对单射函数进行建模，那么 GNNs 就可以具有与 WL 测试一样大的判别能力。

为了在数学上形式化上述见解，我们的框架首先将给定节点的邻居的特征向量集表示为多重集，即具有可能重复元素的集合。然后，GNNs 中的邻居聚合可以被认为是多重集上的聚合函数。因此，要具有强大的表示能力，GNN 必须能够将不同的多重集聚合为不同的表示。我们严格地研究了多重集上的函数的几种变体，并在理论上描述了它们的判别能力，即不同的聚合函数可以区分不同的多重集的程度。多重集上的函数的判别力越强，底层 GNN 的表示能力就越强大。

我们的主要成果总结如下：

我们表明 GNNs 在区分图结构方面至多与 WL 测试一样强大。
我们在邻居聚合和图读出函数上建立条件，在这些条件下，生成的 GNNs 与 WL 测试一样强大。
我们识别出流行的 GNN 变体无法区分的图结构，例如 GCN (Kipf & Welling, 2017) 和 GraphSAGE (Hamilton et al., 2017a)，并且我们精确地表征了此类基于GNNs模型可以捕获的图结构。
我们开发了一个简单的神经架构，即图同构网络 (GIN)，并表明其判别和表示能力等同于 WL 测试的表示能力。

我们通过在图分类数据集上进行的实验验证了我们的理论，其中 GNNs 的表达能力对于捕获图结构至关重要。我们特地比较了应用各种聚合函数的GNNs的性能。我们的结果证实了，我们理论中最强大的 GNN，即图同构网络 (GIN)，在经验上也具有很高的表示能力，因为它几乎完美拟合训练数据，而不太强大的 GNN 变体通常严重欠拟合训练数据。此外，表现更强大的 GNNs 在测试集准确性方面优于其他 GNN，并在许多图分类基准数据集上实现了SOTA的性能。

2、预备

我们首先总结一些最常见的 GNN 模型，并在此过程中介绍我们的相应记号。令 $G = (V, E)$ 表示一个具有节点特征向量 $X_v$ 的图，其中 $\in V$ 。有两个有趣的任务：（1）节点分类，其中每个节点 $\in V$ 有一个关联的标签 $y_v$ ，目标是学习 $v$ 的表示向量 $h_v$ ，使得 $v$ 的标签可以通过 $y_v = f(h_v)$ 进行预测; (2) 图分类，其中，给定一组图 $\{G_1, ..., G_N\} \subseteq \mathcal{G}$ 和它们的标签 $\{y_1, ..., y_N\} \subseteq \mathcal{Y}$ ，我们的目标是学习有助于预测整个图标签的表示向量 $h_G$ ，使得 $y_G = g(h_G)$ 。

图神经网络。 GNNs 使用图结构和节点特征 $X_v$ 来学习节点 $h_v$ 或整个图 $h_G$ 的表示向量。现代 GNNs 遵循邻域聚合策略，我们通过聚合其邻居的表示来迭代更新节点的表示。经过 $k$ 次聚合迭代后，节点的表示会捕获其 $k$ 跳网络邻域内的结构信息。形式上，GNN 的第 $k$ 层是
$a_v^{(k)}=\mathsf{AGGREGATE}^{(k)}\left(\left\{h_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right),h_v^{(k)}=\mathsf{COMBINE}^{(k)}\left(h_v^{(k-1)},a_v^{(k)}\right),\tag{2.1}$
其中 $h_v^{(k)}$ 是节点 $v$ 在第 $k$ 次迭代/层的特征向量。我们初始化 $h_v^{(0)} = X_v$ ， $\mathcal{N}(v)$ 是与 $v$ 相邻的一组节点。 GNNs 中 $\mathsf{AGGREGATE}^{(k)}(·)$ 和 $\mathsf{COMBINE}^{(k)}(·)$ 的选择至关重要。目前已经提出了许多用于 $\mathsf{AGGREGATE}$ 的架构。在 GraphSAGE (Hamilton et al., 2017a) 的池化变体中， $\mathsf{AGGREGATE}$ 被公式化为
$a_v^{(k)}=\mathsf{MAX}\left(\left\{\mathsf{ReLU}\left(W\cdot h_u^{(k-1)}\right),\forall u \in \mathcal{N}(v)\right\}\right),\tag{2.2}$

其中 $W$ 是一个可学习的矩阵， $\mathsf{MAX}$ 表示一个元素级的最大池化。 $\mathsf{COMBINE}$ 步骤可以是一个拼接操作，然后是一个线性映射 $W\cdot\left[h_v^{(k-1)}, a_v^{(k)}\right]$ ，就像在 GraphSAGE 中做的一样。在图卷积网络(GCN) (Kipf & Welling, 2017) 中，其使用元素级的平均池化，并将 $\mathsf{AGGREGATE}$ 和 $\mathsf{COMBINE}$ 步骤集成如下：
$h_v^{(k)}=\mathsf{ReLU}\left(W\cdot\mathsf{MEAN}\left\{h_u^{(k-1)},\forall u\in \mathcal{N}(v)\cup\{v\}\right\}\right)\tag{2.3}$
许多其他 GNNs 都可以被表示为类似于等式2.1的形式（Xu et al., 2018; Gilmer et al., 2017）。
对于节点分类，最终迭代的节点表示 $h_v^{(K)}$ 用于预测。对于图分类， $\mathsf{READOUT}$ 函数从最终迭代中聚合节点特征以获得整个图的表示 $h_G$ ：
$h_G=\mathsf{READOUT}({h_v^{(k)}|v\in G})\tag{2.4}$
$\mathsf{READOUT}$ 可以是简单的置换不变函数，例如求和，也可以是更复杂的图形级池化函数（Ying et al., 2018; Zhang et al., 2018）。

Weisfeiler-Lehman 检验。图同构问题求解两个图在拓扑结构上是否相同。这是一个具有挑战性的问题：目前还没有已知的多项式时间算法（Garey，1979；Garey & Johnson，2002；Babai，2016）。除了一些极端情况 (Cai et al., 1992)，图同构的 Weisfeiler-Lehman (WL) 检验 (Weisfeiler & Lehman, 1968) 是一种有效且计算效率高的检验，它可以区分大多数图 (Babai & Kucera , 1979)。它的一维形式，“朴素的顶点细化”，类似于 GNN 中的邻居聚合。 WL 测试迭代地 (1) 聚合节点及其邻域的标签，并且 (2) 将聚合标签散列成唯一的新标签。如果在某些迭代中两个图之间的节点标签不同，则该算法判定两个图是非同构的。

基于 WL 测试， Shervashidze et al. (2011) 提出了测量图之间相似性的 WL 子树内核。内核使用 WL 测试不同迭代下的节点标签计数作为图的特征向量。直观地说，WL 测试的第 k 次迭代中的节点标签表示以该节点为根的高度为 k 的子树结构（图 1）。因此，WL 子树内核考虑的图特征本质上是图中不同有根子树的计数。

图 1：我们的理论框架概述。中图：WL 测试用于区分不同图的有根子树结构（在蓝色节点处）。右图：如果 GNN 的聚合函数能够完整捕获邻居节点的多重集信息，那么 GNN 就能以递归方式捕获有根子树，并表现得与 WL 测试一样强大。

3、理论框架：概述

我们首先概述我们用于分析 GNNs 表达能力的框架。图 1 说明了我们的想法。 GNN 递归地更新每个节点的特征向量以捕获其周围其他节点的网络结构和特征，即其根有子树结构（图 1）。在整篇论文中，我们假设节点输入特征来自可数空间。对于有限图，任何固定模型更深层的节点特征向量也来自可数空间。为了符号简单，我们选取 ${a,b,c...\}$ 中的符号为每个特征向量分配一个唯一标签。然后，一组相邻节点的特征向量形成一个多重集（图 1）：相同的元素可以出现多次，因为不同的节点可以具有相同的特征向量。

定义 1（多重集）。多重集是一个集合的广义概念，它允许其元素有多个实例。更正式地说，多重集是一个二元组 $X = (S, m)$ ，其中 $S$ 是由其不同元素形成的 $X$ 的底层集合，并且 $\mathbb{N}_{\geq 1}$ 给出了元素的多重性。

为了研究 GNN 的表示能力，我们分析了 GNN 何时将两个节点映射到嵌入空间中的相同位置。直观地说，最强大的GNN只有当两个节点在相应节点上具有相同特征的相同子树结构时，才将两个节点映射到同一位置。由于子树结构是通过节点邻域递归定义的（图 1），我们可以将我们的分析简化为 GNN 是否将两个邻域（即两个多重集）映射到相同的嵌入或表示的问题。一个最强大的 GNN 永远不会将两个不同的邻域（即特征向量的多重集）映射到相同的表示。这意味着它的聚合方案必须是单射的。因此，我们将 GNN 的聚合方案抽象为它们的神经网络可以表示的多重集上的一类函数，并分析它们是否能够表示单射多重集函数。

接下来，我们使用这个推理来开发一个最强大的 GNN。在第 5 节中，我们研究了流行的 GNN 变体，并发现它们的聚合方案本质上不是单射的，因此功能较弱，但它们可以捕获图的其他有趣属性。

4、打造强大的GNN

首先，我们描述了一般类别的基于 GNN 的模型的最大表示能力。理想情况下，最强大的 GNN 可以通过将不同的图结构映射到嵌入空间中的不同表示来区分不同的图结构。然而，这种将任意两个不同图映射到不同嵌入的能力意味着解决具有挑战性的图同构问题。也就是说，我们希望将同构图映射到相同的表示，将非同构的图映射到不同的表示。在我们的分析中，我们通过一个稍微弱一些的标准来描述 GNN 的表示能力：一个强大的启发式方法，称为 Weisfeiler-Lehman (WL) 图同构测试，众所周知，它通常可以很好地工作，但有一些例外，例如正则图（Cai et al.,1992; Douglas, 2011; Evdokimov & Ponomarenko, 1999）。

引理 2. 令 $G_1$ 和 $G_2$ 是任意两个非同构图。如果图神经网络 $\mathcal{A} : \mathcal{G} → \mathbb{R}^d$ 将 $G_1$ 和 $G_2$ 映射到不同的嵌入，则 Weisfeiler-Lehman 图同构测试也确定 $G_1$ 和 $G_2$ 不是同构的。

所有引理和定理的证明可以在附录中找到。因此，任何基于聚合的 GNN 在区分不同图方面最多与 WL 测试一样强大。一个自然的后续问题是，是否存在原则上与 WL 测试一样强大的 GNN？在定理 3 中,我们给出了答案，它是肯定的：如果邻居聚合和图级读出函数是单射的，那么生成的 GNN 与 WL 测试一样强大。

定理 3. 让 $\mathcal{A} : \mathcal{G} → \mathbb{R}^d$ 是一个 GNN。有了足够数量的 GNN 层，如果满足以下条件， $\mathcal{A}$ 会将 Weisfeiler-Lehman 同构测试确定为非同构的任何图 $G_1$ 和 $G_2$ 映射到不同的嵌入：
a) 使用如下公式迭代聚合和更新节点特征：
$h_v^{(k)}=\phi\left(h_v^{(k-1)}\left(\left\{h_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right)\right),$
其中在多重集上运行的函数 $f$ 和 $\phi$ 是单射的。
b) $\mathcal{A}$ 对节点特征 $\left\{h_v^{(k)}\right\}$ 的多重集进行操作的图级读出函数是单射的。

我们在附录中证明了定理 3。对于可数集，单射性很好地表征了一个函数是否保留了输入的独特性。不可数集，其中节点特征是连续的，需要进一步考虑。此外，表征其学习到的特征在函数图像中的紧密程度也很有趣。我们将这些问题留给以后的工作，并专注于输入节点特征来自可数集（可以是不可数集的子集,如 $\mathbb{R}^n$ ）的情况。

引理 4. 假设输入特征空间 $\mathbb{X}$ 是可数的。设 $g^{(k)}$ 是由 GNN 的第 $k$ 层参数化的函数， $k = 1, ..., L$ ，其中 $g^{(1)}$ 定义在有界尺寸的多重集 $\mathcal{X}$ 上。 $g^{(k)}$ 的范围，即节点隐藏特征 $h_v^{(k)}$ 的空间，对于所有 $k = 1, ..., L$ 也是可数的。

在这里，除了区分不同图之外，还值得讨论 GNN 的一个重要好处，即捕获图结构的相似性。请注意，WL 测试中的节点特征向量本质上是独热编码，因此无法捕获子树之间的相似性。相比之下，满足定理 3 中标准的 GNN 通过学习将子树嵌入到低维空间来泛化 WL 测试。这使 GNN 不仅能够区分不同的结构，而且能够学习将相似的图结构映射到相似的嵌入并捕获图结构之间的依赖关系。捕获节点标签的结构相似性被证明有助于泛化，特别是当子树的共现在不同图上稀疏或存在嘈杂的边和节点特征时（Yanardag & Vishwanathan，2015）。

4.1 图同构网络（GIN）

为最强大的 GNN 开发了条件之后，接下来我们开发了一个简单的架构，即图同构网络 (GIN)，它可被证明满足定理 3 中的条件。该模型概括了 WL 测试，从而实现了 GNN 之间的最大判别能力。

为了对邻居聚合的单射多重集函数进行建模，我们开发了一种“深度多重集”的理论，即使用神经网络参数化通用多重集函数。我们的下一个引理指出和聚合器可以表示单射，实际上，它是多重集上的通用函数。

引理 5. 假设 $\mathcal{X}$ 是可数的。存在一个函数 $\mathcal{X} → \mathbb{R}^n$ 使得 $\sum_{x∈X} f(x)$ 对于每个有界大小的多重集 $\mathcal{X}$ 都是唯一的。此外，对于某些函数 $\phi$ ，任何多重集函数 $g$ 都可以分解为 $g(X)=\phi (\sum_{x∈X} f(x))$

我们在附录中证明引理 5。证明将 (Zaheer et al., 2017) 中的设置从集合扩展到多重集。深度多重集和集合之间的一个重要区别是某些流行的单射集函数，例如均值聚合器，不是单射多重集函数。以引理 5 中通用多重集函数的建模机制为构建块，我们可以设想聚合方案，该方案可以表示节点及其邻接节点的多重集上的通用函数，从而满足定理 3 中的单射条件（a）。我们的下一个推论在许多这样的聚合方案中提供了一个简单而具体的公式。

推论 6. 假设 $\mathcal{X}$ 是可数的。存在一个函数 $\mathcal{X} → \mathbb{R}^n$ 使得对于 $\epsilon$ 的无限多选择，包括所有无理数， $\epsilon)\cdot f(c) + \sum_{x∈X} f(x)$ 对于每对有界大小的多重集 $(c, X)$ 是唯一的，其中 $c\in\mathcal{X}$ 和 $X\subset\mathcal{X}$ 。此外，对于某些函数 $\varphi$ ,任何函数 $g$ 都可以分解为 $=\varphi\left((1 + \epsilon)\cdot f(c) + \sum_{x∈X} f(x)\right)$

由于通用逼近定理（Hornik et al., 1989; Hornik, 1991），我们可以使用多层感知器 (MLPs) 来建模和学习推论 6 中的$ f$ 和 $\varphi$ 。在实践中，我们用一个 MLP 对 $\varphi(k)$ 建模，因为 MLPs 可以表示函数的组合。在第一次迭代中，如果输入特征是独热编码，我们在求和之前不需要 MLPs，因为它们的求和总是单射的。我们可以使 $\epsilon$ 成为可学习的参数或固定标量。然后，GIN 通过下述公式将节点表示更新
$h_v^{(k)}=\mathsf{MLP}^{(k)}\left(\left(1+\epsilon ^{(k)}\right)\cdot h_v^{(k-1)}+\sum_{u\in \mathcal{N}(v)}h_u^{(k-1)}\right)\tag{4.1}$
通常，可能存在许多其他强大的 GNNs。 GIN 是许多功能最强大的 GNNs 中的一个这样的例子，虽然很简单。

4.2 GIN的图级READOUT

GIN 学习的节点嵌入可直接用于节点分类和链接预测等任务。对于图分类任务，我们提出以下“读出（readout）”函数，给定单个节点的嵌入，生成整个图的嵌入。

图级读出的一个重要方面是，对应于子树结构的节点表示随着迭代次数的增加而变得更加精细和全局化。足够多的迭代次数是获得良好判别能力的关键。然而，早期迭代的特征有时可能会更好地概括图的信息。为了考虑所有结构信息，我们使用来自模型所有深度/迭代的信息。我们通过类似于 Jumping Knowledge Networks (Xu et al., 2018) 的架构来实现这一点，我们用GIN 的所有迭代/层特征连接所形成图形表示替换了等式2.4：
$h_G=\mathsf{CONCAT}\left(\mathsf{READOUT}\left(\left\{h_v^{(k)}|v\in G\right\}\right)|k=0,1,\dots,K\right).\tag{4.2}$

根据定理 3 和推论 6，如果 GIN 使用来自相同迭代的所有节点特征的和替换了等式4.2 中的 READOUT（出于与等式 4.1 中相同的原因，我们在求和之前不需要额外的 MLP），它就可以被证明泛化了 WL 测试和 WL 子树内核。

5、不算太强大但有趣的GNN

接下来，我们研究不满足定理 3 中条件的 GNNs，包括 GCN（Kipf & Welling，2017）和 GraphSAGE（Hamilton et al.，2017a）。我们对等式4.1中聚合器的两个方面进行消融研究：(1) 1 层感知器而不是 MLP 和 (2) 均值或最大池化而不是和。我们将看到这些 GNN 变体被令人惊讶的简单图形混淆，并且不如 WL 测试强大。尽管如此，具有 GCN 等均值聚合器的模型在节点分类任务中表现良好。为了更好地理解这一点，我们精确地描述了不同的 GNN 变体可以和不能捕获图的哪些方面，并讨论了使用图进行学习的含义。

5.1 一层感知机是不够的

引理5 中的函数 f 有助于将不同的多重集映射到唯一的嵌入。它可以通过通用逼近定理 (Hornik, 1991) 由 MLP 参数化。尽管如此，许多现有的 GNNs 转而使用 1 层感知器 $σ ◦ W$ （Duvenaud et al., 2015; Kipf & Welling, 2017;Zhang et al., 2018），一个线性映射后跟一个非线性激活函数，例如一个 ReLU。这种 1 层映射是广义线性模型 (Nelder & Wedderburn, 1972) 的示例。因此，我们有兴趣了解 1 层感知器是否足以进行图学习。引理 7 表明确实存在具有 1 层感知器的模型永远无法区分的网络邻域（多重集）。

引理 7. 存在有限多重集 $X_1 \ne X_2$ 使得对于任何线性映射 $W$ ， $\sum_{x∈X_1} \mathsf{ReLU} (W x)$ $\sum_{x∈X_2} \mathsf{ReLU} (W x)$ 。

证明引理 7 的主要思想是，1 层感知器的行为很像线性映射，因此 GNN 层退化为简单地对邻域特征求和。我们的证明建立在线性映射中缺少偏置项这一事实之上。有了偏置项和足够大的输出维度，1 层感知器可能能够区分不同的多重集。尽管如此，与使用 MLPs 的模型不同，1 层感知器（即使有偏置项）并不是多重集函数的通用逼近器。因此，即使具有 1 层感知器的 GNNs 可以在某种程度上将不同的图嵌入到不同的位置，这种嵌入也可能无法充分捕捉结构相似性，并且对于简单的分类器（例如线性分类器）来说可能难以拟合。在第 7 节中，我们将凭经验看到具有 1 层感知器的 GNNs 在应用于图分类时，有时会严重欠拟合训练数据，并且在测试精度方面通常比具有 MLP 的 GNNs 表现更差。

5.2 混淆了均值和最大池化的结构

如果我们用 GCN 和 GraphSAGE 中的均值或最大池化替换 $\sum_{x∈X} f(x)$ 中的总和会发生什么？均值和最大池化聚合器是定义明确的多重集函数，因为它们是置换不变的。但是，它们不是单射的。图 2 按表示能力对三个聚合器进行排名，图 3 说明了均值和最大池化聚合器无法区分的结构对。在这里，节点颜色表示不同的节点特征，我们假设 GNNs 先聚合邻居，然后再将它们与标记为 $v$ 和 $v^{'}$ 的中心节点结合起来。

图 2：按和、均值和最大聚合器在多重集上的表达能力排名。 左侧图显示输入多重集，即要聚合的网络邻域。接下来的三个图说明了给定聚合器能够捕获的多重集的方面：sum 捕获完整的多重集，mean 捕获给定类型元素的比例/分布，而最大聚合器忽略多重性（将多重集简化为简单的集合）。

图 3：均值和最大聚合器无法区分的图结构示例。 在两个图之间，节点 $v$ 和 $v^{'}$ 得到相同的嵌入，即使它们对应的图结构不同。图 2 给出了不同聚合器如何“压缩”不同多重集从而无法区分它们的推理。

在图 3a 中，每个节点都具有相同的特征 $a$ ，并且 $f (a)$ 在所有节点中都相同（对于任何函数 $f$ ）。在执行邻域聚合时， $f (a)$ 上的平均值或最大值仍然是 $f (a)$ ，并且通过归纳，我们总是在任何地方获得相同的节点表示。因此，在这种情况下，均值和最大池化聚合器无法捕获任何结构信息。相反，和聚合器区分结构，因为 $2\cdot f(a)$ 和 $3\cdot f(a)$ 给出了不同的值。相同的论点可以应用于任何未标记的图。如果使用节点度而不是常数值作为节点输入特征，原则上均值可以恢复和，但最大池化不能。

图 3a 表明均值和最大值难以区分具有重复特征的节点的图。设 $h_{color}$ （ $r$ 代表红色， $g$ 代表绿色）表示经由 $f$ 变换的节点特征。图 3b 显示蓝色节点 $v$ 和 $v^{'}$ 附近的最大值产生 $max (h_g, h_r)$ 和 $max (h_g, h_r, h_r)$ ，它们的得出了相同的表示（即使相应的图结构不同） . 因此，最大池化无法区分它们。相比之下，和聚合器仍然有效，因为 $\frac{1}{2} (h_g + h_r)$ 和 $\frac{1}{3} (h_g + h_r + h_r)$ 通常不相等。类似地，在图 3c 中，平均值和最大值都失效了，因为 $\frac{1}{2}(h_g + h_r) = \frac{1}{4}(h_g + h_g + h_r + h_r)$ 。

5.3 均值学习了分布

为了表征均值聚合器可以区分的多重集类别，我们考虑示例 $X_1 = (S, m)$ 和 $X_2 = (S, k · m)$ ，其中 $X_1$ 和 $X_2$ 为相同的具有不同元素的集合，但 $X_2$ 包含 $X_1$ 每个元素的 $k$ 份副本。任何平均聚合器都将 $X_1$ 和 $X_2$ 映射到相同的嵌入，因为它只是对单个元素的特征取平均值。因此，均值捕获了多重集中元素的分布（比例），而不是精确的多重集。

推论 8. 假设 $\mathcal{X}$ 是可数的。存在一个函数 $\mathcal{X} → \mathbb{R}^n$ 使得 $=\frac{1}{|X|} \sum_{x∈X} f(x)$ , $h(X_1) = h(X_2)$ 当且仅当多重集 $X_1$ 和 $X_2$ 具有相同的分布。也就是说，假设 $X_2| ≥ |X_1|$ ，对于某些 $\mathbb{N}_{≥1}$ ，我们有 $X 1 = (S, m)$ 和 $X 2 = (S, k \cdot m)$ 。

如果对于任务而言，图中的统计和分布信息比确切结构更重要，则均值聚合器可能会表现良好。此外，当节点特征多样且很少重复时，均值聚合器与和聚合器一样强大。这可以解释为什么尽管在第 5.2 节中确定了限制，但具有均值聚合器的 GNN 对节点分类任务是有效的，例如分类文章主题和社区检测，其中节点特征丰富且邻域特征的分布为任务提供了很强的信号。

5.4 最大池化学习了具有不同元素的集合

图 3 中的示例说明最大池化将具有相同特征的多个节点视为仅一个节点（即，将多重集视为一个集合）。最大池化既不捕获确切的结构，也不捕获分布。但是，它可能适用于识别代表性元素或“骨架”而不是区分确切结构或分布很重要的任务。 Qi et al. (2017)根据经验表明，最大池化聚合器学习识别 3D 点云的骨架，并且它对噪声和异常值具有鲁棒性。为完整起见，下一个推论表明最大池聚合器捕获了多重集的底层集合。

推论 9. 假设 $\mathcal{X}$ 是可数的。那么存在一个函数 $\mathcal{X} → R^∞$ 使得对于 $h (X) =$ $max_{x∈X }f(x)$ , $h(X_1) = h(X_2)$ 当且仅当 $X_1$ 和 $X_2$ 具有相同的底层集合。

5.5 关于其他聚合器的评论

还有我们没有涵盖的其他非标准邻域聚合方案，例如，通过注意力加权平均（Velickovic et al., 2018）和 LSTM 池化（Hamilton et al., 2017a; Murphy et al., 2018）。我们强调，我们的理论框架足够通用，可以表征任何基于聚合的 GNNs 的表示能力。将来，应用我们的框架来分析和理解其他聚合方案会很有趣。

6、相关工作

尽管 GNNs 在经验上取得了成功，但在数学上研究其特性的工作相对较少。一个例外是 Scarselli et al.(2009a) 的工作，其表明可能最早的 GNN 模型（Scarselli et al., 2009b）可以在概率上近似可测函数。Lei et al. (2017)表明他们提出的架构在于图内核的 RKHS，但没有明确研究它可以区分哪些图。这些工作中的每一个都专注于特定的架构，并且不容易推广到多个架构。相比之下，我们上面的成果提供了一个通用框架，用于分析和表征一大类 GNNs 的表达能力。最近，许多基于 GNN 的架构被提出了，包括和聚合和 MLP 编码（Battaglia et al., 2016; Scarselli et al., 2009b; Duvenaud et al., 2015），但其中大多数没有理论推导。与许多先前的 GNN 架构相比，我们的图同构网络 (GIN) 是有理论上的动机的，简单而强大。

RKHS:再生核希尔伯特空间（reproducing kernel Hilbert space），即具有再生性的希尔伯特空间

7、实验

我们评估和比较了 GIN 和功能较弱的 GNN 变体的训练集和测试集性能。训练集性能允许我们根据它们的表示能力来比较不同的 GNN 模型，而测试集性能用来量化泛化能力。
数据集：我们使用 9 个图分类基准数据集：4 个生物信息学数据集（MUTAG、PTC、NCI1、PROTEINS）和 5 个社交网络数据集（COLLAB、IMDB-BINARY、IMDB-MULTI、REDDIT-BINARY 和 REDDIT-MULTI5K）（Yanardag & Vishwanathan，2015。更重要的是，我们的目标不是让模型去依赖输入节点的特征，而是主要从网络结构中去学习。因此，在生物信息图中，节点具有分类输入特征，但在社交网络中，它们没有特征。对于社交网络，我们创建节点特征如下：对于 REDDIT 数据集，我们将所有节点特征向量设置为相同（因此，这里的特征没有信息）；对于其他社交图，我们使用节点度的 one-hot 编码。数据集统计情况总结在表 1 中，数据的更多细节可以在附录 I 中找到。

模型和配置。我们评估 GIN（等式 4.1 和 4.2）和功能较弱的 GNN 变体。在 GIN 框架下，我们考虑两种变体：(1) 通过梯度下降学习等式4.1 中 $\epsilon$ 的 GIN，我们称之为 GIN- $\epsilon$ ，以及 (2) 一个更简单的（稍微不那么强大）GIN，其中方程4.1中的 $\epsilon$ 固定为 0，我们称之为 GIN-0。正如我们将看到的，GIN-0 显示出强大的经验性能：不仅 GIN-0 与 GIN- $\epsilon$ 一样适合训练数据，它还表现出良好的泛化性，在测试准确性方面略有但始终优于 GIN- $\epsilon$ 。对于不太强大的 GNN 变体，我们考虑使用均值或最大池化替换 GIN-0 聚合中求和或使用 1 层感知器替换 MLP（即线性映射后跟 ReLU）的体系结构。在图 4 和表 1 中，模型由它使用的聚合器/感知器命名。这里 mean-1-layer 和 max-1-layer 分别对应于 GCN 和 GraphSAGE，个别的，会有微小的架构修改。为了更好的测试性能，我们对 GIN 和所有 GNN 变体应用相同的图形级读出函数（等式 4.2 中的 READOUT），特别的，对生物信息学数据集，使用和读出函数（sum readout）；对社会数据集，使用平均读出函数（mean readout）。

跟(Yanardag & Vishwanathan, 2015; Niepert et al., 2016) 一样，我们对 LIB-SVM (Chang & Lin, 2011) 执行 10 折交叉验证。我们展示了 10 折交叉验证中的验证准确度的平均值和标准偏差。对于所有配置，都用了 5 个 GNN 层（包括输入层），并且所有 MLP 都是 2 层。批标准化（BN） (Ioffe & Szegedy, 2015) 应用于每个隐藏层。我们使用 Adam 优化器 (Kingma & Ba, 2015)，初始学习率为 0.01，每 50 个 epoch 后学习率将衰减 0.5。我们为每个数据集调整的超参数是：（1）生物信息学图隐藏单元的数量 ∈ {16, 32} ，社交图隐藏单元数量为64 ； (2) 批大小∈{32, 128}； (3) dense layer(Srivastava et al., 2014)后的 dropout 比率 ∈ {0, 0.5} ； (4) epochs 的数量，等，在10折交叉验证中具有最佳平均交叉验证准确度的epoch将会被选出。注意，由于数据集较小，使用验证集完成超参数选择的替代设置非常不稳定，例如，对于 MUTAG，验证集仅包含 18 个数据点。我们还展示了不同 GNN 的训练精度，其中所有超参数在数据集上都是固定的：5 个 GNN 层（包括输入层）、大小为 64 的隐藏单元、大小为 128 的小批量和 0.5 的丢失率。为了比较，我们还展示了 WL 子树内核的训练精度，我们将迭代次数设置为 4，这与 5 个 GNN 层相当。

基线。我们将上面的 GNNs 与许多SOTA的图分类基线进行比较：(1) WL 子树内核 (Shervashidze et al., 2011)，其中使用了 C-SVM (Chang & Lin, 2011) 作为分类器；我们调整的超参数是 SVM 的 C 和在 ${1, 2, .. . , 6\}$ 之内的WL 迭代次数 ; (2) SOTA的深度学习架构，即扩散卷积神经网络 (DCNN) (Atwood & Towsley, 2016)、PATCHY-SAN (Niepert et al., 2016) 和 Deep Graph CNN (DGCNN) (Zhang et al., 2018); (3) 匿名步行嵌入 (AWL) (Ivanov & Burnaev, 2018)。对于深度学习方法和 AWL，我们展示了原始论文中展示的准确性。

7.1结果

图 4：GIN、不太强大的 GNN 变体和 WL 子树内核的训练集性能。

训练集性能。我们通过比较 GNN 的训练精度来验证我们对 GNN 表示能力的理论分析。具有更高表示能力的模型应该具有更高的训练集准确率。图 4 显示了具有相同超参数设置的 GINs 和功能较弱的 GNN 变体的训练曲线。首先，理论上最强大的 GNN，即 GIN- $\epsilon$ 和 GIN-0，都能够几乎完美地拟合所有训练集。在我们的实验中，与在GIN-0 中将 $\epsilon$ 固定为 0 相比， GIN- $\epsilon$ 中显式学习 $\epsilon$ 在拟合训练数据方面没有收益。相比之下，使用均值/最大池化或 1 层感知器的 GNN 变体在许多数据集上严重欠拟合。特别地，训练精度模式与我们通过模型表示能力的排名一致：具有 MLP 的 GNN 变体往往比具有 1 层感知器的 GNN 变体具有更高的训练精度，并且具有和聚合器的 GNN 往往比那些使用均值和最大池聚合器拟合训练集更好。

在我们的数据集上，GNNs 的训练精度永远没有超过 WL 子树内核的精度。这是意料之中的，因为 GNNs 通常比 WL 测试具有更低的判别能力。例如，在 IMDBBINARY 上，没有一个模型可以完美地拟合训练集，并且 GNNs 最多达到与 WL 内核相同的训练精度。这种模式与我们的结果一致，即 WL 测试为基于聚合的 GNNs 的表示能力提供了上限。然而，WL 内核无法学习如何组合节点特征，这对于给定的预测任务可能非常有用，我们将在接下来看到。

测试集性能。接下来，我们比较测试精度。虽然我们的理论结果并没有直接谈到 GNNs 的泛化能力，但我们有理由期望具有强大表达能力的 GNN 能够准确地捕获感兴趣的图结构，从而很好地泛化。表 1 比较了 GINs（Sum-MLP）、其他 GNN 变体以及达到SOTA的基线的测试精度。

表 1：测试集分类准确率 (%)。性能最好的 GNNs 用粗体突出显示。在一些数据集上， GIN 的准确度在GNN变体中不是严格意义上最高的，但我们可以看到 GIN 仍能够与最好的 GNN 相媲美，因为显着性水平 10% 的配对 t 检验并不能将 GIN 与最好的区别开来；因此，GIN 也用粗体突出显示。如果基线的性能明显优于所有 GNNs，我们用粗体和星号突出显示它。

首先，GIN，尤其是 GIN-0，在所有 9 个数据集上的表现都优于（或达到了相当的性能相比于）功能较弱的 GNN 变体，实现了SOTA的性能。 GIN 在社交网络数据集上大放异彩，其中包含相对大量的训练图。对于 Reddit 数据集，所有节点共享相同的标量作为节点特征。在这里，GINs 和 sum-aggregation GNNs 准确地捕获了图结构并且明显优于其他模型。然而，均值聚合 GNNs 无法捕获未标记图的任何结构（如第 5.2 节中预测的那样），并且其性能并不比随机猜测好。即使提供节点度数作为输入特征，基于均值的 GNNs 的性能也比基于和的 GNNs 差得多（具有均值-MLP 聚合的 GNN 在 REDDIT-BINARY 上的准确率为 71.2±4.6%，在 REDDIT-MULTI5K 上为 41.3±2.1% ）。比较 GINs（GIN-0 和 GIN- $\epsilon$ ）时，我们观察到 GIN-0 略微但始终优于 GIN- $\epsilon$ 。由于两个模型都同样适合训练数据，因此与 GIN- $\epsilon$ 相比，GIN-0 的更好泛化可能是因为它的简单性。

8、总结

在本文中，我们提出了推理 GNNs 表达能力的理论基础，并证明了流行 GNN 变体的表示能力的严格界限。我们还在邻域聚合框架下设计了一个可证明的最强大的 GNNs。未来工作的一个有趣方向是超越邻域聚合（或消息传递），以追求可能更强大的图学习架构。为了完成这幅蓝图，理解和改进 GNNs 的泛化特性以及更好地理解它们的优化前景也很有趣。

致谢

这项研究得到了 NSF CAREER 奖 1553284、DARPA D3M 奖和 DARPA DSO 的拉格朗日计划的支持，拨款为 FA86501827838。这项研究还得到了 NSF、ARO MURI、波音、华为、斯坦福数据科学计划和 Chan Zuckerberg Biohub 的部分支持。 Weihua Hu获得Funai Overseas Scholarship资助。我们感谢 Ken-ichi Kawarabayashi 教授和 Masashi Sugiyama 教授以计算资源支持这项研究并提供了很好的建议。我们感谢 Tomohiro Sonobe 和 Kento Nozawa 为我们管理服务器。我们感谢 Rex Ying 和 William Hamilton 提供的有用反馈。我们感谢 Simon S. Du、Yasuo Tabei、Chengtao Li 和 Jingling Li 的有益讨论和积极评论。

参考

1、James Atwood and Don Towsley. Diffusion-convolutional neural networks（扩散卷积神经网络）. In Advances in Neural Information Processing Systems (NIPS), pp. 1993–2001, 2016.
2、László Babai. Graph isomorphism in quasipolynomial time（拟多项式时间内的图同构）. In Proceedings of the forty-eighth annual ACM symposium on Theory of Computing, pp. 684–697. ACM, 2016.
3、László Babai and Ludik Kucera. Canonical labelling of graphs in linear average time（线性平均时间内图的规范标记）. In Foundations of Computer Science, 1979., 20th Annual Symposium on, pp. 39–46. IEEE, 1979.
4、Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interaction networks for learning about objects, relations and physics（用于学习对象、关系和物理的交互网络）. In Advances in Neural Information Processing Systems (NIPS), pp. 4502–4510, 2016.
5、Jin-Yi Cai, Martin Fürer, and Neil Immerman. An optimal lower bound on the number of variables for graph identiﬁcation. （图识别的变量数量的最佳下限）Combinatorica, 12(4):389–410, 1992.
6、Chih-Chung Chang and Chih-Jen Lin. Libsvm: a library for support vector machines（Libsvm：一个支持向量机的库）. ACM transactions on intelligent systems and technology (TIST), 2(3):27, 2011.
7、Michaël Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral ﬁltering（具有快速局部谱滤波的图上卷积神经网络）. In Advances in Neural Information Processing Systems (NIPS), pp. 3844–3852, 2016.
8、Brendan L Douglas. The weisfeiler-lehman method and graph isomorphism testing（Weisfeiler-lehman 方法和图同构测试）. arXiv preprint arXiv:1101.5211, 2011.
9、David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alán Aspuru-Guzik, and Ryan P Adams. Convolutional networks on graphs for learning molecular ﬁngerprints（用于学习分子指纹的图上卷积网络）. pp. 2224–2232, 2015.
10、Sergei Evdokimov and Ilia Ponomarenko. Isomorphism of coloured graphs with slowly increasing multiplicity of jordan blocks. （具有缓慢增加 jordan 块多样性的彩色图的同构）Combinatorica, 19(3):321–333, 1999.
11、Michael R Garey. A guide to the theory of np-completeness. （np-完备性理论指南）Computers and intractability, 1979.
12、Michael R Garey and David S Johnson. Computers and intractability, volume 29（计算机与棘手性，第 29 卷）. wh freeman New York, 2002.
13、Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry（量子化学的神经信息传递）. In International Conference on Machine Learning (ICML), pp. 1273–1272, 2017.
14、William L Hamilton, Rex Ying, and Jure Leskovec. Inductive representation learning on large graphs（大图上的归纳表示学习）. In Advances in Neural Information Processing Systems (NIPS), pp. 1025–1035, 2017a.
15、William L Hamilton, Rex Ying, and Jure Leskovec. Representation learning on graphs: Methods and applications（图上的表示学习：方法和应用）. IEEE Data Engineering Bulletin, 40(3):52–74, 2017b.
16、Kurt Hornik. Approximation capabilities of multilayer feedforward networks（多层前馈网络的逼近能力）. Neural networks, 4(2): 251–257, 1991.
17、Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators.（多层前馈网络是通用逼近器） Neural networks, 2(5):359–366, 1989.
18、Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. （通过减少内部协变量偏移来加速深度网络训练）In International Conference on Machine Learning (ICML), pp. 448–456, 2015.
19、Sergey Ivanov and Evgeny Burnaev. Anonymous walk embeddings.（匿名步行嵌入） In International Conference on Machine Learning (ICML), pp. 2191–2200, 2018.
20、Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande, and Patrick Riley. Molecular graph convolutions: moving beyond ﬁngerprints.（分子图卷积：超越指纹） Journal of computer-aided molecular design, 30(8): 595–608, 2016.
21、Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization（一种随机优化方法）. In International Conference on Learning Representations (ICLR), 2015.
22、Thomas N Kipf and Max Welling. Semi-supervised classiﬁcation with graph convolutional networks.（图卷积网络的半监督分类） In International Conference on Learning Representations (ICLR), 2017.
23、Tao Lei, Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Deriving neural architectures from sequence and graph kernels. （从序列和图核中推导出神经架构）pp. 2024–2033, 2017.
24、Yujia Li, Daniel Tarlow, Marc Brockschmidt, and Richard Zemel. Gated graph sequence neural networks（门控图序列神经网络）. In International Conference on Learning Representations (ICLR), 2016.
25、Ryan L Murphy, Balasubramaniam Srinivasan, Vinayak Rao, and Bruno Ribeiro. Janossy pooling: Learning deep permutation-invariant functions for variable-size inputs（Janossy 池化：学习可变大小输入的深度置换不变函数）. arXiv preprint arXiv:1811.01900, 2018.
26、J. A. Nelder and R. W. M. Wedderburn. Generalized linear models（广义线性模型）. Journal of the Royal Statistical Society, Series A, General, 135:370–384, 1972.
27、Mathias Niepert, Mohamed Ahmed, and Konstantin Kutzkov. Learning convolutional neural networks for graphs.（学习图的卷积神经网络） In International Conference on Machine Learning (ICML), pp. 2014–2023, 2016.
28、Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Pointnet: Deep learning on point sets for 3d classiﬁcation and segmentation.（Pointnet：用于 3d 分类和分割的点集的深度学习） Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4, 2017.
29、Adam Santoro, David Raposo, David G Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, and Timothy Lillicrap. A simple neural network module for relational reasoning（用于关系推理的简单神经网络模块）. In Advances in neural information processing systems, pp. 4967–4976, 2017.
30、Adam Santoro, Felix Hill, David Barrett, Ari Morcos, and Timothy Lillicrap. Measuring abstract reasoning in neural networks（测量神经网络中的抽象推理）. In International Conference on Machine Learning, pp. 4477–4486, 2018.
31、Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, and Gabriele Monfardini. Computational capabilities of graph neural networks（图神经网络的计算能力）. IEEE Transactions on Neural Networks, 20 (1):81–102, 2009a.
32、Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, and Gabriele Monfardini. Thegraph neural network model.（图神经网络模型） IEEE Transactions on Neural Networks, 20(1):61–80, 2009b.
33、Nino Shervashidze, Pascal Schweitzer, Erik Jan van Leeuwen, Kurt Mehlhorn, and Karsten M Borgwardt. Weisfeiler-lehman graph kernels.（Weisfeiler-lehman 图内核） Journal of Machine Learning Research, 12(Sep): 2539–2561, 2011.
34、Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overﬁtting. （Dropout：防止神经网络过拟合的简单方法）The Journal of Machine Learning Research, 15(1):1929–1958, 2014.
35、Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. （图注意力网络）In International Conference on Learning Representations (ICLR), 2018.
36、Saurabh Verma and Zhi-Li Zhang. Graph capsule convolutional neural networks.（图胶囊卷积神经网络） arXiv preprint arXiv:1805.08090, 2018.
37、Boris Weisfeiler and AA Lehman. A reduction of a graph to a canonical form and an algebra arising during this reduction. （将图简化为规范形式和在此简化过程中产生的代数）Nauchno-Technicheskaya Informatsia, 2(9):12–16, 1968.
38、Keyulu Xu, Chengtao Li, Yonglong Tian, Tomohiro Sonobe, Ken-ichi Kawarabayashi, and Stefanie Jegelka. Representation learning on graphs with jumping knowledge networks.（具有跳跃知识网络的图表示学习） In International Conference on Machine Learning (ICML), pp. 5453–5462, 2018.
39、Pinar Yanardag and SVN Vishwanathan. Deep graph kernels.（深度图内核） In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 1365–1374. ACM, 2015.
40、Rex Ying, Jiaxuan You, Christopher Morris, Xiang Ren, William L Hamilton, and Jure Leskovec. Hierarchical graph representation learning with differentiable pooling（具有可微池化的分层图表示学习）. In Advances in Neural Information Processing Systems (NIPS), 2018.
41、Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Ruslan R Salakhutdinov, and Alexander J Smola. Deep sets（深集）. In Advances in Neural Information Processing Systems, pp. 3391–3401, 2017.
42、Muhan Zhang, Zhicheng Cui, Marion Neumann, and Yixin Chen. An end-to-end deep learning architecture for graph classiﬁcation（图分类的端到端深度学习架构）. In AAAI Conference on Artiﬁcial Intelligence, pp. 4438–4445, 2018.

附录

A 引理2证明

证明。假设经过 $k$ 次迭代，图神经网络 $\mathcal{A}$ 具有 $\mathcal{ A}(G_1)\ne \mathcal{A}(G_2)$ 但 WL 测试无法确定 $G_1$ 和 $G_2$ 是非同构的。因此，从 WL 测试中的第 $0$ 次迭代到第 $k$ 次， $G_1$ 和 $G_2$ 始终具有相同的节点标签集合。详细地说，因为对于任何 $i = 0, ..., k - 1$ ， $G_1$ 和 $G_2$ 在迭代 $i$ 和 $i + 1$ 具有相同的 WL 节点标签，所以 $G_1$ 和 $G_2$ 具有相同的 WL 节点标签集合，即多重集 $\left\{l_v^{(i)}\right\}$ 以及相同的节点邻域集合 $\left\{\left( l_v^{(i)}, \left\{l_u^{(i)} : u ∈ \mathcal{N }(v)\right\}\right)\right\}$ 。否则，WL 测试将在迭代 $i + 1$ 时为 $G_1$ 和 $G_2$ 获得不同的节点标签集合，因为不同的多重集会获得唯一的新标签。 WL 测试总是将相邻节点的不同多重集重新标记为不同的新标签。我们表明，在同一个图 $G$ = $G_1$ 或 $G_2$ 上，如果 WL 节点标签 $l_v^{(i)} = l_u^{(i)}$ ，对于任何迭代 $i$ ，我们总是有 GNN 节点特征 $h_v^{(i)} = h_u^{(i)}$ 。这显然适用于 $i = 0$ ，因为 WL 和 GNN 以相同的节点特征开始。假设这对于迭代 j 成立，如果对于任何 $u, v$ , 有 $l_v^{(j+1)} = l_u^{(j+1)}$ ，那么一定是这种情况
$\left(l_v^{(j)},\left\{l_w^{(j)}:w\in\mathcal{N}(v)\right\}\right)=\left(l_u^{(j)},\left\{l_w^{(j)}:w\in\mathcal{N}(u)\right\}\right)$
根据我们对迭代 j 的假设，我们一定有
$\left(h_v^{(j)},\left\{h_w^{(j)}:w\in\mathcal{N}(v)\right\}\right)=\left(h_u^{(j)},\left\{h_w^{(j)}:w\in\mathcal{N}(u)\right\}\right)$
在 GNN 的聚合过程中，应用了同样的 $\mathsf{AGGREGATE}$ 和 $\mathsf{COMBINE}$ 。相同的输入，即邻域特征，产生相同的输出。因此， $h_v^{(j+1)} = h_u^{(j+1)}$ 。通过归纳，如果 WL 节点标签 $l_v^{(i)} = l_u^{(i)}$ ，对于任何迭代 $i$ ，我们总是有 GNN 节点特征 $h_v^{(i)} = h_u^{(i)}$ 。这创建了一个有效的映射 $\phi$ ，使得对任何 $v \in G$ , $h_v^{(i)} = \phi (l_v^{(i)})$ 。从 $G_1$ 和 $G_2$ 具有相同的WL 邻域标签多重集，可知 $G_1$ 和 $G_2$ 也具有相同的GNN 邻域特征集合
$\left\{\left(h_v^{(i)},\left\{h_u^{(i)}:u\in\mathcal{N}(v)\right\}\right)\right\}=\left\{\left(\phi (l_v^{(i)}),\left\{\phi (l_u^{(i)}):u\in\mathcal{N}(v)\right\}\right)\right\}$
因此， $\left\{h_v^{(i+1)}\right\}$ 是相同的。特别是，对于 $G_1$ 和 $G_2$ ，我们有相同的 GNN 节点特征集合 $\left\{h_v^{(k)}\right\}$ 。因为图级读出函数对于节点特征的集合是排列不变的，所以 $\mathcal{ A}(G_1) = \mathcal{A}(G_2)$ 。于是我们就遇到了矛盾。

B 定理3证明

证明。设 $\mathcal{A}$ 为使条件成立的图神经网络。令 $G_1$ , $G_2$ 是 WL 测试在第K 次迭代时判定为非同构的任何图。因为图级读出函数是单射的，即将节点特征的不同多重集映射到唯一的嵌入中，足以证明， $\mathcal{A}$ 的邻域聚合过程，在足够的迭代下，能将 $G_1$ 和 $G 2$ 嵌入到节点特征的不同多重集中。让我们假设 $\mathcal{A}$ 将节点表示更新为
$h_v^{(k)}=\phi\left(h_v^{(k-1)},f\left(\left\{h_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right)\right)$
其中有单射函数 $f$ 和 $\phi$ 。 WL 测试应用预设的单射散列函数 $g$ 来更新 WL 节点标签 $l_v^{(k)}$ ：
$l_v^{(k)}=g\left(l_v^{(k-1)},\left\{l_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right)$
我们将通过归纳证明，对于任何迭代 $k$ ，总是存在一个单射函数 $\varphi$ 使得 $h_v^{(k)} = \varphi (l_v^{(k)})$ 。这显然适用于 $k = 0$ ，因为对于所有 $v ∈ G_1、G_2$ ，WL 和 GNN 的初始节点特征是相同的, $l_v^{(0)} = h_v^{(0)}$ 。所以 $\varphi$ 可能是 $k = 0$ 的恒等函数。假设这适用于迭代 $k - 1$ ，我们证明它也适用于 $k$ 。将 $h_v^{(k−1)}$ 替换为 $\varphi (l_v^{(k−1)})$ 得到
$h_v^{(k)}=\phi\left(\varphi \left(l_v^{(k-1)}\right),f\left(\left\{\varphi \left(l_u^{(k-1)}\right):u\in \mathcal{N}(v)\right\}\right)\right)$
由于单射函数的组合是单射的，所以存在一些单射函数 $ψ$ ，使得
$h_v^{(k)}=\psi\left(l_v^{(k-1)},\left\{l_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right)$
然后我们有
$h_v^{(k)}=\psi \circ g^{-1}g\left(l_v^{(k-1)},\left\{l_u^{(k-1)}:u\in \mathcal{N}(v)\right\}\right)=\psi\circ g^{-1}\left(l_v^{(k)}\right)$
$\varphi = ψ ◦ g^{−1}$ 是单射的，因为单射函数的组合是单射的。因此对于任何迭代 $k$ ，总是存在一个单射函数 $\varphi$ 使得 $h_v^{(k)} = \varphi l_v^{(k)}$ 。在第 $K$ 次迭代时，WL 测试决定 $G_1$ 和 $G_2$ 是非同构的，即 $G_1$ 和 $G_2$ 的多重集 $\left\{l_v^{(K)}\right\}$ 不同。由于 $\varphi$ 的单射性，图神经网络 $\mathcal{A}$ 的节点嵌入 $\left\{h_v^{(K)}\right\}=\left\{\varphi\left(l_v^{(K)}\right)\right\}$ 对于 $G_1$ 和 $G_2$ 也一定不同。

C 引理4证明

证明。在证明我们的引理之前，我们首先展示一个众所周知的结果，然后我们会将问题简化为： $\mathbb{N}^k$ 对于每个 $∈\mathbb{N}$ 都是可数的，即可数集的有限笛卡尔积是可数的。我们观察到证明 $\mathbb{N}×\mathbb{N}$ 是可数的就足够了，因为证明可以从归纳中清楚地得出。为了证明 $\mathbb{N}×\mathbb{N}$ 是可数的，我们构造了一个从 $\mathbb{N}×\mathbb{N}$ 到 $\mathbb{N}$ 的双射 $\phi$ 为
$\phi(m,n)=2^{m-1}\cdot(2n-1)$
现在我们回去证明我们的引理。如果我们可以证明定义在可数集的有界大小的多重集上的任何函数 $g$ 的范围也是可数的，那么引理通过归纳对任何 $g^{(k)}$ 成立。因此，我们的目标是证明这样的 $g$ 的范围是可数的。首先，很明显从 $g (X)$ 到 $X$ 的映射是单射的，因为 $g$ 是一个定义良好的函数。因此，它足以证明所有多重集 $⊂\mathcal{ X}$ 的集合是可数的。

由于两个可数集合的并集是可数的，所以集合 $\mathcal{ X'}$ 也是可数的。
$\mathcal{X'}=\mathcal{X}\cup\{e\}$
其中 $e$ 是不在 $\mathcal{ X}$ 中的虚拟元素。根据我们上面展示的结果，即 $\mathbb{N}^k$ 对每个 $∈\mathbb{N}$ 是可数的， $\mathcal{X }'^k$ 对每个 $∈\mathbb{N}$ 是可数的。还需要证明，对于某些 $∈\mathbb{N}$ ，存在从 $\mathcal{ X}$ 中的多重集到 $\mathcal{X }'^k$ 的单射映射。

对于某些 $∈\mathbb{N}$ ，我们从多重集 $⊂\mathcal{ X}$ 到 $\mathcal{X }'^k$ 的集合中构造一个单射映射 $h$ ，如下所示。因为 $\mathcal{ X}$ 是可数的，所以存在从 $x \in X$ 到自然数的映射 $\mathcal{X} → \mathbb{N}$ 。我们可以通过 $z (x)$ 将元素 $x \in X$ 排序为 $x_1, x_2, ..., x_n$ ，其中 $n = ∣ X ∣$ 。因为多重集 X 的大小有界，所以存在 $∈\mathbb{N}$ 使得 $∣ X ∣ < k$ 对于所有 $X$ 。然后我们可以将 $h$ 定义为
$h(X)=(x_1,x_2,\dots,x_n,e,e,e\dots)$
其中 $k - n$ 坐标用虚拟元素 $e$ 填充。很明显， $h$ 是单射的，因为对于任何有界大小的多重集 $X$ 和 $Y$ ， $h (X) = h (Y)$ 仅当 $X$ 等于 $Y$ 时。因此， $g$ 的范围是可数的。

D 引理5证明

证明。我们首先证明存在一个映射 $f$ 使得 $\sum_{x∈X} f(x)$ 对于每个有界大小的多重集 $X$ 是唯一的。因为 $\mathcal{ X}$ 是可数的，所以存在从 $∈\mathcal{ X}$ 到自然数的映射 $\mathcal{X} → \mathbb{N}$ 。因为多重集 $X$ 的基数是有界的，所以存在一个数 $∈\mathbb{ N}$ 使得对于所有 $X$ ， $∣ X ∣ < N$ 。那么这种 $f$ 的一个例子是 $f(x) = N^{−Z(x)}$ 。这个 $f$ 可以被看作是独热向量或 $N$ 位表示的更压缩形式。因此， $h (X) =$ $\sum_{ x∈X }f(x)$ 是多重集的单射函数。

$\phi\left( \sum_{x∈X} f(x)\right)$ 是置换不变的，所以它是一个定义良好的多重集函数。对于任何多重集函数 $g$ ，我们可以通过让 $\phi\left( \sum_{x∈X} f(x)\right) = g(X)$ 来构造这样的 $\phi$ 。请注意，这样的 $\phi$ 是明确定义的，因为 $=\sum_{x∈X} f(x)$ 是单射的。

E 推论6证明

证明。根据引理 5 的证明，我们考虑 $f(x) = N^{−Z(x)}$ ，其中 $N$ 和 $\mathcal{X} → \mathbb{N}$ 与附录 D 中的定义相同。设 $\epsilon ) · f(c)$ $\sum_{x∈X }f(x)$ 。我们的目标是证明，如果 $\epsilon$ 是一个无理数，对于任何 $c, c' \in X$ 和 $X, X' \subset X$ ,若 $\ne (c, X)$ , 则 $\ne h(c′, X ′)$ 成立。我们用反证法证明。对于任何 $(c, X)$ ，假设存在 $(c^{'}, X^{'})$ 使得 $\ne (c, X)$ 但 $h (c, X) = h (c^{'}, X^{'})$ 成立。让我们考虑以下两种情况：(1) $c^{'} = c$ 但 $\ne X$ ，以及 (2) $\ne c$ 。对于第一种情况， $h (c, X) = h (c, X')$ 蕴涵 $\sum_{x∈X} f(x) = \sum_{x∈X′} f(x)$ 。从引理 5 可知，等式不成立，因为有 $f(x) = N^{−Z(x)}$ ， $\ne X$ 意味着 $\sum_{x∈X} f(x) \ne$ $\sum_{x∈X′} f(x)$ 。因此，我们得出了一个矛盾。对于第二种情况，我们可以类似地将 $h (c, X) = h (c', X')$ 重写为
$\epsilon\cdot(f(c)-f(c'))=\left(f(c')+\sum_{x\in X'}f(x)\right)-\left(f(c)+\sum_{x\in X}f(x)\right)\tag{E.1}$
因为 $\epsilon$ 是一个无理数，而 $f (c) - f (c^{'})$ 是一个非零有理数，等式 E.1 的左边是无理数。另一方面，等式 E.1的右边，有限数量的有理数之和，是有理数。因此等式E.1 两边不相等，我们已经达到了矛盾。

对于 $(c, X)$ 对上的任何函数 $g$ ，我们可以通过构建这样的 $\varphi$ 让 $\varphi( (1 + \epsilon) · f(c) + \sum_{x∈X} f(x)) = g(c, X )$ 成立。注意，这样的 $\varphi$ 是明确定义的，因为 $\epsilon) · f(c) + \sum_{x∈X} f(x)$ 是单射的。

F 引理7证明

证明。让我们考虑 $X_1 = \{1, 1, 1, 1, 1\}$ 和 $X_2 = \{2, 3\}$ 的例子，即两个总和为相同的值的不同正数多重集。我们将使用 ReLU 的同质性。

设 $W$ 是将 $x ∈ X_1, X_2$ 映射到 $\mathbb{R}^n$ 的任意线性变换。很明显，在相同的坐标系下， $W x$ 对于所有 $x$ 要么是正的要么是负的，因为 $X_1$ 和 $X_2$ 中的所有 $x$ 都是正的。因此，对于 $X_1$ 、 $X_2$ 中的所有 $x$ ， $\mathsf{ReLU}(W x)$ 在相同坐标系下要么为正数，要么为 0。对于 $\mathsf{ReLU}(W x)$ 为 0 的坐标，我们有 $\sum_{x∈X_1} \mathsf{ReLU} (W x) = \sum_{x∈X_2} \mathsf{ReLU} (W x)$ 。对于 $W x$ 为正的坐标，线性仍然成立。它遵循线性性质，即
$\sum_{x∈X} \mathsf{ReLU} (W x) = \mathsf{ReLU}\left (W \sum_{x∈X} x\right)$
其中 $X$ 可以是 $X_1$ 或 $X_2$ 。因为 $\sum_{x∈X_1} x = \sum_{x∈X_2} x$ ，我们就可以得到如下所需。
$\sum_{x∈X_1} \mathsf{ReLU} (W x) = \sum_{x∈X_2} \mathsf{ReLU} (W x)$

G 推论8证明

证明。假设多重集 $X_1$ 和 $X_2$ 具有相同的分布，不失一般性，让我们假设 $X_1 = (S, m)$ 和 $X_2 = (S, k · m)$ ，对于某些 $\mathbb{N}_{≥1}$ ，即 $X_1$ 和 $X_2$ 具有相同的底层集合， $X_2$ 中每个元素的多重性是 $X_1$ 中的 $k$ 倍。然后我们有 $∣ X 2∣ = k ∣ X 1∣$ 和 $\sum_{ x∈X_2}f(x) = k\cdot\sum_{ x∈X_1}f(x)$ 。因此，
$\frac{1}{|X_2|}\sum_{ x∈X_2}f(x) =\frac{1}{k·|X_1|}\cdot k·\sum_{ x∈X_1}f(x) = \frac{1}{|X1|}\sum_{x∈X_1}f(x)$
现在我们证明存在一个函数 $f$ 使得 $\frac{1}{|X|}\sum_{ x∈X}f(x)$ 对于分布等价的 $X$ 是唯一的。因为 $\mathcal{X}$ 是可数的，所以存在从 $\mathcal{X}$ 到自然数的映射 $\mathcal{X} → \mathbb{N}$ 。因为多重集 $X$ 的基数是有界的，所以存在一个数 $\mathbb{N}$ 使得对于所有 $X$ ， $∣ X ∣ < N$ 。那么这样的 $f$ 的一个例子是 $f(x) = N^{−2Z(x)}$ 。

H 推论9证明

证明。假设多重集 $X_1$ 和 $X_2$ 具有相同的底层集合 $S$ ，那么我们有
$\max_{x\in X_1}f(x)=\max_{x\in S}f(x)=\max_{x\in X_2}f(x)$
现在我们证明存在一个映射 $f$ 使得 $max_{x∈X} f(x)$ 对于具有相同底层集合的 $X_s$ 是唯一的。因为 $\mathcal{X}$ 是可数的，所以存在从 $\mathcal{X}$ 到自然数的映射 $:\mathcal{ X} → \mathbb{N}$ 。那么这样的 $f$ 的一个例子： $\mathbb{R}^∞$ 被定义为对于 $i = Z (x)$ ， $f_i(x) = 1$ ；否则， $f_i(x) = 0$ ，其中 $f_i(x)$ 是 $f (X)$ 的第 $i$ 个坐标的值。这样的 $f$ 本质上将多重集映射到它的独热嵌入。

注：感觉这推论的证明似乎欠缺了些东西，无法证明仅当多重集 $X_1$ 和 $X_2$ 具有相同的底层集合 $S$ ，才会有推论9成立（推论8同）

I 数据集信息

我们详细描述了我们实验中使用的数据集。更多细节可以在 (Yanardag & Vishwanathan, 2015)中找到。

社交网络数据集。 IMDB-BINARY 和 IMDB-MULTI 是电影协作数据集。每个图对应于每个演员/女演员的自我网络，其中节点对应于演员/女演员，如果两个演员/女演员出现在同一部电影中，则在他们之间绘制一条边。每个图都来自一个预先指定的电影类型，而任务则是对电影所衍生的类型图进行分类。REDDIT-BINARY 和 REDDIT-MULTI5K 是平衡数据集，其中每个图对应一个在线讨论线程，并且节点对应于用户。如果至少有一个节点响应了另一个节点的评论，则在两个节点之间绘制了一条边。任务是将每个图分类到它所属的社区或子版块。 COLLAB 是一个科学协作数据集，源自 3 个公共协作数据集，即高能物理、凝聚态物理和天体物理。每个图对应于来自每个领域的不同研究人员的自我网络。任务是将每个图分类到相应研究人员所属的领域。

生物信息学数据集。 MUTAG 是 188 种诱变芳香族和杂芳香族硝基化合物的数据集，具有 7 个离散标记。 PROTEINS 是一个数据集，其中节点是二级结构元素 (SSE)，如果两个节点在氨基酸序列或 3D 空间中是邻居，则两个节点之间存在边。它有 3 个离散标签，分别代表螺旋、片或转。 PTC 是一个包含 344 种化合物的数据集，报告了雄性和雌性大鼠的致癌性，它有 19 个离散标签。 NCI1 是一个由美国国家癌症研究所 (NCI) 公开提供的数据集，是经过筛选能够抑制或抑制一组人类肿瘤细胞系生长的化合物平衡数据集的子集，具有 37 个离散标记。

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号