《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第二章第2.1节翻译和解读

书名:《Graph Neural Networks Foundations,Frontiers and Applications》(图神经网络的基础、前沿和应用)

出版社:Springer Berlin Heidelberg

作者:Lingfei Wu · Peng Cui · Jian Pei · Liang Zhao

红色部分为个人的一些解读,不足之处请多多指点!

第一部分 引言

第二章 图表示学习

        摘要:图表示学习的目的是将图中的节点分配到低维表示中(比如一个论文分类任务,一个节点是一个1433维向量,总的论文类别是六类,图表示学习就是要把1433维降到6维以完成分类任务),并有效地保留图结构。最近,在这个新兴的图分析范式方面已经取得了大量的进展。在本章中,我们首先总结了图表示学习的动机。之后,我们主要以系统的方式全面介绍了大量的图表示学习方法,涵盖了传统图表示学习、现代图表示学习和图神经网络。

第2.1节 图表示学习介绍

        许多复杂的系统都采取图的形式,如社交网络、生物网络和信息网络。众所周知,图数据往往很复杂,因此处理起来很有挑战性。为了有效地处理图数据,第一个关键的挑战是找到有效的图数据表示方法,即如何简洁地表示图,以便在时间和空间上有效地进行高级分析任务,如模式发现、分析和预测。传统上,我们通常将一个图表示为G=\left ( \nu ,\varepsilon \right ),其中\nu是一个节点集,\varepsilon是一个边集。对于大型图来说,比如那些有数十亿节点的图,传统的图表示法给图的处理和分析带来了一些挑战。

        1)高计算复杂性。这些由边缘集\varepsilon编码的关系需要大多数图处理或分析算法的迭代或组合计算步骤。例如,一个流行的方法是使用两个节点之间的最短或平均路径长度来表示它们的距离。为了用传统的图表示法计算这样的距离,我们必须列举两个节点之间许多可能的路径,这在本质上是一个组合的问题。这种方法导致了高计算复杂性,使其无法适用于大规模的真实世界图。

        2)可并行性低。并行和分布式计算是处理和分析大规模数据的事实上的方法。然而,以传统方式表示的图数据给并行和分布式算法的设计和实施带来了严重困难。瓶颈在于,图中的节点之间的耦合是由\varepsilon明确反映的。因此,将不同的节点分布在不同的分片或服务器上,往往会导致服务器之间的通信成本过高,并阻碍了速度的提高。(重点在于分布式或并行计算,怎么保证节点之间的连接不丢失)

        3)机器学习方法的不适用性。最近,机器学习方法,特别是深度学习,在很多领域都非常强大。然而,对于以传统方式表示的图数据,大多数现成的机器学习方法可能并不适用。这些方法通常假设数据样本可以用向量空间中的独立向量来表示,而图数据中的样本(即节点)在某种程度上是相互依赖的,由\varepsilon决定。虽然我们可以简单地用图的邻接矩阵中相应的行向量来表示一个节点,但在一个有许多节点的大图中,这种表示方法的维度非常高,使得后续的图处理和分析非常困难。

        三个方面都指出大规模图数据集,现实生活中的图数据集是很大的,比如淘宝的推荐系统构成的图,一个有影响力的人构成的社交图,都可能是上亿级别的。

        为了应对这些挑战,人们致力于开发新的图表示学习,即学习节点的密集和连续的低维向量表示,这样可以减少噪声或冗余信息,保留内在的结构信息。在学习的表示空间中,原本由图中的边或其他高阶拓扑度量表示的节点之间的关系被向量空间中的节点之间的距离所捕获,而节点的结构特征被编码到其表示向量中。

        基本上,为了使表示空间很好地支持图分析任务,图表示学习有两个目标。首先,原始图可以从学习的表示空间中重建。它要求,如果两个节点之间有一条边或关系,那么这两个节点在表示空间中的距离应该相对较小。其次,学习到的表示空间可以有效地支持图的推理,如预测未见的链接,识别重要节点,推断节点标签。需要注意的是,仅以图重建为目标的表示空间不足以进行图形推理。在得到表示之后,可以根据这些表示来处理下游的任务,如节点分类、节点聚类、图的可视化和链接预测。总的来说,图表示学习方法主要有三类:传统图嵌入、现代图嵌入和图神经网络,下面三节将分别介绍。

你可能感兴趣的:(图神经网络基础,前沿和应用,深度学习,人工智能,论文阅读,图论,机器学习)