基础理论|图论基础

微信公众号关注:脑电与图网络研究僧

写在前面的话:前期把主要精力花在模型上,没有过多关注理论。疫情期间,回头看了看,发现徒有框架远远不够,下定决心将GNN、GCN、GRN、GAN等相关的鼻祖论文都找出来认真拜读,看看大佬的思路,收获颇丰。接下来小编将把最近学习整理的笔记分享给大家,欢迎交流提问,共同探讨,共同进步。

内容目录:针对图论基础,整理了图专业术语、表示学习、图表示学习、图矩阵表示几方面。

        图神经网络是一种新兴的机器学习模型,已经席卷了科学和工业世界。近年来,图神经网络 (GNN) 领域取得了迅速而令人难以置信的进步。图神经网络 (Graph Neural Networks),又称图形深度学习 (Deep Learning on Graph) 、图形表示学习 (Graph Representation Learning) 或几何深度学习 (Geometric Deep Learning),已成为机器学习 (尤其是深度学习) 中发展最快的研究课题之一。这一波在图论和深度学习交叉的研究也影响了其他科学领域,包括推荐系统、计算机视觉、自然语言处理、归纳逻辑编程、程序综合、软件挖掘、自动化规划、网络安全和智能交通。

图专业术语

图专业术语

        • 图:图由节点集和边集组成,其中节点代表实体,边代表实体之间的关系。节点和边构成了图的拓扑结构。除了图结构之外,节点、边或整个图可以与表示为节点/边/图特征(也称为属性或内容)的丰富信息相关联。  

        • 子图:子图是其节点集和边集都属于原始图子集的图。 

        • 中心性:中心性是图中节点重要性的度量。中心性的基本假设是,如果许多其他重要节点也连接到该节点,则该节点被认为是重要的。常见的中心性度量包括度中心性、特征向量中心性、介数中心性和接近中心性。  

        • 邻域:一个节点的邻域一般是指与其相近的其他节点。例如,节点的  阶邻域,也称为  步邻域,表示一组其他节点,其中这些节点与中心节点之间的最短路径距离不大于  。  

        • 社区结构:社区是指内部连接密集而外部连接不密集的一组节点。  

        • 图形采样:图形采样是一种从原始图形中挑选节点或边子集的技术。图采样可用于在大规模图上训练机器学习模型,同时防止严重的可扩展性问题。

        • 异质图:如果图的节点或边来自不同类型,则称为异质图。异质图的一个典型例子是知识图,其中边由不同的类型组成。 

        • 超图:超图是图的概括,其中一条边可以连接任意数量的节点。  

        • 随机图:随机图通常旨在对所观察图生成的图的概率分布进行建模。较成熟随机图模型,称为  模型,假设节点集是固定的,并且每条边都是相同且独立生成的。  

        • 动态图:动态图是指当图数据的至少一个组成部分随时间发生变化时,例如添加或删除节点、添加或删除边、更改边权重或更改节点属性等。如果图不是动态的,将它们称为静态图。

机器学习上的图

        • 谱图理论:谱图理论使用线性代数工具分析与图相关的矩阵,例如邻接矩阵或拉普拉斯矩阵,例如研究矩阵的特征值和特征向量。

        • 图信号处理:图形信号处理 (GSP) 旨在开发用于处理图形上定义的信号的工具。图信号是指数据样本的有限集合,图中每个节点都有一个样本。

        • 节点级任务:节点级任务是指与图中各个节点关联的机器学习任务。节点级任务的典型示例包括节点分类和节点回归。

        • 边级任务:边级任务是指与图中的一对节点相关联的机器学习任务。链接预测是边级任务的典型示例。  

        • 图级任务:图级任务是指与整个图相关的机器学习任务。图级任务的典型示例包括图分类和图属性预测。

        • 转导和归纳学习:转导学习是指在训练时观察目标实例,例如节点或边(尽管目标实例的标签仍然未知),归纳学习旨在学习可推广到未观察实例的模型。

图神经网络

      • 网络嵌入:网络嵌入的目标是将图中的每个节点表示为一个低维向量,以便在嵌入向量中保留图结构和图的某些属性等有用信息。网络嵌入也称为图嵌入和节点表示学习。

      • 图神经网络:图神经网络是指任何处理图数据的神经网络。  

        • 图卷积网络:图卷积网络通常是指 Kipf (2017) 提出的特定图神经网络。在某些文献中,它有时用作图神经网络的同义词,即指代任何处理图数据的神经网络。  

       • 消息传递:消息传递是图神经网络的框架,其中关键步骤是基于每个神经网络层中的图结构在不同节点之间传递消息。最广泛采用的公式,通常表示为消息传递神经网络,是仅在直接连接的 Gilmer  (2017) 的节点之间传递消息。消息传递函数在一些文献中也称为图过滤器和图卷积。  

        • 读出:读出是指汇总各个节点的信息以形成更高级信息的功能,例如形成子图/超图或获得整个图的表示。在一些文献中,读出也称为池化和图粗化。  

        • 图对抗攻击:图对抗攻击旨在通过操纵图结构和/或节点特征来产生最坏情况的扰动,从而降低某些模型的性能。图对抗攻击可以根据攻击者的目标、能力和可访问的知识进行分类。  

        • 鲁棒性证明:提供正式保证的方法,即使基于某个扰动模型执行扰动,GNN 的预测也不会受到影响。

表示学习

        机器学习技术的有效性在很大程度上不仅依赖于算法本身的设计,而且还依赖于数据的良好表示 (特征集),表示学习的目标是从数据中提取足够但最少的信息。缺乏某些重要信息或包含不正确或大量冗余信息的无效数据表示可能会导致算法在处理不同任务时性能不佳。传统上,特征工程是一种利用人类的聪明才智和先验知识的方法,希望从数据中提取和组织用于机器学习任务的判别信息。其缺点是: 

      • 通常需要领域专家的密集工作,因为特征工程可能需要模型开发人员和领域专家之间紧密而广泛的协作。

      • 特征提取不完全且有偏差,提取的特征的容量和判别能力受到不同领域专家知识的限制。此外,在人类知识有限的许多领域中,提取哪些特征本身对领域专家来说是一个开放的问题,例如癌症的早期预测。

        表示学习技术见证了从传统表示学习技术向更先进技术的发展。传统方法属于“浅层”模型,旨在学习数据转换,以便在构建分类器或其他预测器时更容易提取有用信息。基于深度学习的表示学习是由多个非线性变换的组合形成的,其目标是产生更抽象、最终更有用的表示。可以分为以下几种类型:

• 监督学习,其中大量标记深度学习模型的训练需要数据。给定训练有素的网络,最后一个全连接层之前的输出被用作输入数据的最终表示。

• 无监督学习(包括自监督学习),便于对没有相应标签的输入数据进行分析,旨在学习数据的底层内在结构或分布。预任务用于从大量未标记数据中探索监督信息。基于此构建的监督信息,训练深度神经网络以提取对未来下游任务有意义的表示。

• 迁移学习,涉及利用任何知识资源(即数据、模型、标签等)来增加目标任务的模型学习和泛化的方法。迁移学习包含不同的场景,包括多任务学习、模型适应、知识迁移、协方差转换等。还有其他重要的表示学习方法,如强化学习、少样本学习和解耦表示学习。

图表示学习

       许多复杂系统采用图的形式,例如社交网络、生物网络和信息网络。图数据通常很复杂,难以处理。有效地处理图数据,第一个关键挑战是找到有效的图数据表示,即如何简洁地表示图,以便可以在时间和时间上高效地执行模式发现、分析和预测等高级分析任务。传统上,通常将图表示G=(V,E)为  ,其中V是节点集,  E是边集。对于具有数十亿节点的大型图,传统的图表示对图的处理和分析提出了一些挑战:

• 计算复杂度高。由边集E编码的这些关系采用大多数图处理或分析算法迭代或组合计算步骤。例如,一种流行的方法是使用两个节点之间的最短或平均路径长度来表示它们的距离。为了使用传统的图表示来计算这样的距离,必须枚举两个节点之间的许多可能路径,这本质上是一个组合问题。这样的方法导致高计算复杂性,从而阻止它们适用于大规模的真实世界图。

• 并行性低。并行和分布式计算实际上是处理和分析大规模数据。然而,以传统方式表示的图形数据给并行和分布式算法的设计和实现带来了严重的困难。瓶颈在于图中的节点相互耦合,由E显式反映。因此,将不同的节点分布在不同的分片或服务器中往往会导致服务器之间的通信成本很高,并且阻碍了加速比。

• 机器学习方法的不适用性。最近,机器学习方法,尤其是深度学习,在很多领域都非常强大。然而,对于以传统方式表示的图数据,大多数现成的机器学习方法可能并不适用。这些方法通常假设数据样本可以由向量空间中的独立向量表示,而图数据中的样本(即节点)在某种程度上由E决定。尽管可以简单地表示一个节点其在图的邻接矩阵中对应的行向量,但这种表示在具有许多节点的大图中的极高维数使得后续的图处理和分析变得困难。

        图表示学习,即学习节点的密集和连续的低维矢量表示,从而可以减少噪声或冗余信息并保留固有结构信息。在学习的表示空间中,最初图中的边或其他高阶拓扑度量表示的节点之间的关系由向量空间中节点之间的距离捕获,并且节点的结构特征被编码为其表示向量。为了使表示空间很好地支持图分析任务,图表示学习有两个目标。首先,可以从学习的表示空间中重建原始图。它要求,如果两个节点之间存在边或关系,则表示空间中这两个节点的距离应该相对较小。其次,学习到的表示空间可以有效地支持图推理。另外,仅具有图重构目标的表示空间不足以进行图推理。获得表示后,可以根据这些表示来处理下游任务,例如节点分类,节点聚类,图可视化和链接预测。

        在过去的十年里,深度学习已经成为人工智能和机器学习的“皇冠宝石”,在声学、图像和自然语言处理等方面表现出优越的性能。图形在现实世界中无处不在,但利用深度学习方法分析图形数据是非常具有挑战性的。由于以下挑战,这个问题非常重要:

 • 图的不规则结构。与图像、音频和文本(它们具有清晰的网格结构)不同,图形具有不规则的结构,因此很难将一些基本的数学运算概括为图形。例如,为图形数据定义卷积和池化运算(卷积神经网中的基本运算)并不简单。

 • 图的异质性和多样性。图形本身可能很复杂,包含多种类型和属性。这些不同的类型、属性和任务需要不同的模型体系结构来解决特定的问题。

• 大型图形。在大数据时代,真实的图形很容易有数百万或数十亿个节点和边。如何设计可伸缩模型,最好是相对于图大小具有线性时间复杂度的模型,是一个关键问题。

 • 融合跨学科知识。图表通常与其他学科相联系,如生物学、化学和社会科学。这种跨学科性质既带来了机遇,也带来了挑战,领域知识可以用来解决特定问题,但整合领域知识可能会使模型设计复杂化。

        目前,图神经网络在过去几年中引起了相当多的研究关注。采用的架构和训练策略差异很大,从有监督到无监督,从卷积到递归,包括图递归神经网络(Graph RNNs)、图卷积网络(GCNs)、图自动编码器(GAEs)、图强化学习(Graph RL)和图对抗方法。具体来说,RNN 通过在节点级别或图级别建模状态来捕获图的递归和顺序模式;GCN定义了对不规则图结构的卷积和读出操作,以捕获常见的局部和全局结构模式;GAE假设低秩图结构并采用无监督方法进行节点表示学习;图RL定义了基于图的动作和奖励,以在遵循约束的同时获得图任务的反馈;图对抗方法采用对抗训练技术来增强基于图的模型的泛化能力,并通过对抗攻击测试其鲁棒性。

图矩阵表示

基础理论|图论基础_第1张图片

关注 获取更多资讯:脑电与图网络研究僧

PS:在学习过程中,参考大量中英文书籍、相关博主,在此向各位学者、博主表示深深谢意

         仅用于学术交流,不用于商业行为,若有侵权及疑问,请后台留言,小编及时删除!

你可能感兴趣的:(基础理论,神经网络,深度学习)