Geometric multimodal representation learning

Geometric multimodal representation learning_第1张图片

[2209.03299v1] Geometric multimodal representation learning (arxiv.org)icon-default.png?t=M85Bhttps://arxiv.org/abs/2209.03299v1摘要

以图为中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系统方面取得了显著的成功,从生物动力学系统到粒子物理。数据的日益异构性需要可以结合多种归纳偏差的图神经架构。然而,结合来自不同来源的数据是具有挑战性的,因为适当的归纳偏差可能因数据形态而异。多模态学习方法融合多种数据模式,同时利用跨模态依赖来解决这一挑战。在这里,我们调研了140项关于以图为中心的人工智能的研究,并意识到越来越多的数据类型使用图汇集在一起,并输入到复杂的多模态模型中。这些模型分为以图像、语言和知识为基础的多模态学习。在此基础上,我们提出了一个多模态图学习的算法蓝图。通过适当地选择四个不同的组件,该蓝图可以将处理多模态数据的最先进的架构进行分组。这一努力可以为高度复杂的现实世界问题的复杂多模态架构的标准化设计铺平道路。

1.介绍

基于图结构数据的大型深度学习对生物、化学、物理和社会科学的突破做出了贡献[1-7]。在许多成功的应用中,图神经网络[8]根据预定的传播方案学习图组件的表示。这些学习后的表示可以用于半监督学习[9]中的标签预测,用于无监督学习的结构重构,如链接预测[10],以及图的设计和生成问题[11,12]。关于模型输入,图学习方法已被用于对数据集进行建模,其中图结构由节点、边和上下文信息明确给出。这些上下文信息对应于图属性(即节点和边属性)。它来自定义图类型的单一来源(例如,包含文章数据的引文网络或包含化学键信息的分子网络)。

对现实问题建模通常需要考虑来自多种类型来源(例如图像、声音、文本、化学反应等)的相同实体数据测量。多模态学习探索了如何从不同分布中采样的数据组合来执行[13]预测。尽管它在单模态方法无法学习的许多应用中取得了巨大成功[14-16],但多模态学习遇到了限制其性能的关键挑战[17]。具体来说,已观察到多模态模型往往倾向于部分关注一部分模态,而忽略其余的模态,这种现象被称为模态坍缩[18]。此外,与常见的所有模态都可用的假设相反,噪声的存在或资源的限制可能会导致模态缺失[19,20]。上述问题在不同来源的数据(如生物序列、物理模拟和图像)合并的情况下很容易遇到,如图1所示。

Geometric multimodal representation learning_第2张图片图1 图为中心的多模态学习。左边显示的是本次调研中涉及的不同数据模态。右边显示的是多模态图学习用于取得进展的各个领域中的代表性任务。本文简要概述了多模态图学习(MGL)在这些模式中的应用,并介绍了MGL的蓝图。 

在许多应用中,不同模态之间的依赖关系可以表达一种固有的网络结构,阻碍使用简单模态融合方法[21]的特别方法的性能。最近的进展表明,图学习模型在多模态数据上的推理是成功的[22,23]。将模态依赖考虑为图边并通过学习网络结构上的表示,可以更准确地捕获它们[24,25]。特别是,在生物学和化学中,经常假设表示分子网络、蛋白质相互作用网络和蛋白质序列的图结构,这推动了基于图的多模态方法的应用[26-28]。

多模态学习和图学习联系的文献描述了通过合并在下游任务中的单模态组件处理多模态数据的架构,或利用不同模态之间的相关性的更复杂的机制。我们将这些方法组合在一个蓝图下,我们称之为多模态图学习(MGL),在这个蓝图下,我们可以以统一的多模态方式表达现有的方法,并为新架构的设计铺平道路。如图1所示,MGL考虑了不同的输入源,从计算机视觉、语言处理到物理、化学和生物。此外,基于提出的公式,揭示了三种主要的建模图类型:1)图像密集图(IIG)用于图像和视频推理相关的任务(见第3节),2)语言密集图(LIG)用于序列处理任务(见第4节),最后3)知识密集图(KIG)用于物理、化学和生物任务(见第5节)。

2.用于多模态学习的图神经网络

深度学习为多模态学习创造了广泛的融合方法[13,29]。例如,循环神经网络(RNN)和卷积神经网络(CNN)架构已经成功地结合在一起,在视频描述问题中融合声音和图像表示[30,31]。最近,生成模型也被证明对于语言密集的[32]和基于物理的多模态数据[33]都非常准确。这样的模型基于编码器-解码器框架,在编码器中,合并的体系结构被同时训练(每个专门用于一种模式),而解码器负责聚合来自单一体系结构的信息。

注意力机制也显著影响了数据融合的深度学习模型。通过在模型中加入注意力权重,可以学习不同模式重要性的优先级。Up-Down模型[34]利用了一组用于图像标题和视觉问题回答(VQA)的注意层组合。VQA-Machine[35]使用共同注意机制层来生成图像和问题的重要排序。

最后,深度强化学习(RL)成功地解决了多模态学习问题。例如在视频字幕任务中,基于rl的模型PickNet[36]依次选择信息量最大的视频帧。在视觉对话任务中,视觉信息和文本信息的结合激发了可以处理多模态数据的RL方法的设计[37,38]。

通常,数据集中模态之间的复杂关系可以产生一个网络结构。图神经网络(gnn)为探索和利用在多模态数据收集中可能出现的固有网络拓扑提供了一个表达能力强、灵活的工具包。基于图的多模态学习是一个令人兴奋的新兴领域,它将多模态学习与图神经网络的最新进展相结合,在图像、文本、物理和许多其他应用领域取得进展[22 - 25,39]。

图学习模型的使用可以发生在(1)探索连接多模态数据的网络拓扑或(2)利用已经存在的拓扑来实现不同模式之间的数据融合。例如,在[25]中,作者提出了一个多模态图学习框架,用于融合神经成像数据与生物标志物和认知测试数据,用于疾病预测。在[39]中,一个图多模态网络被建议用于解决VQA问题,其中两个模型从图像和文本生成以对象为中心的图,另一个模型匹配生成的图并学习有用的表示。在[23]中,图融合网络是一个层次图网络,它探索单模态和多模态交互。

2.1以图为中心的多模态学习

图神经网络用于多模态学习由于其灵活地检测数据模态之间的交互作用而受到关注通过图学习融合不同形态的信息,需要网络拓扑结构的构建和图上推理算法的应用。我们提出了一种端到端的方法,在给定多模态输入数据集合的情况下产生输出表示。我们将这种方法称为多模态图学习(MGL)MGL可以看作是一个蓝图,由四个以端到端方式连接的学习组件组成。在图2a中,我们强调了处理多模态数据的传统单模态架构组合与建议的一体化多模态架构之间的区别。

Geometric multimodal representation learning_第3张图片图2 多模态图学习蓝图概述。a,多模态学习的标准方法包括组合不同的单模态架构,每个架构针对不同的数据模态进行优化。b、相反,MGL框架中的一体化多模态架构考虑了端到端模型中每个数据模态的归纳偏差,从而实现了更具表现力的数据融合。c、MGL四个组件的路线图。即将实体识别、拓扑揭示、信息传播和表示混合学习组件集成到一体化多模态蓝图中

MGL的前两个组成部分包括识别实体和相应的相互作用,可以被归类为结构学习(SL)阶段:

Component 1: Entity identification

第一个组成部分负责确定问题的实体,它们从各种方式接收信息。该组件主要由构造节点以及节点所携带的模态信息组成。例如,在图像和文本数据引用患者信息的情况下,我们首先需要使用相关联的图像和文本组合构建患者节点。

Component 2: Topology uncovering

定义了问题的实体后,第二个组件将发现节点之间的交互和交互类型。在图机器学习的普遍应用中,交互是明确地提供的,所以给出了图。在数据没有先验网络结构的情况下,拓扑揭示组件基于显式(例如,空间和视觉特征)或隐式(例如,表示中的相似性)特征探索可能的邻接矩阵。

MGL的下两个组成部分包括对已学习的图结构的推断,属于基于结构的学习(LoS)阶段:

Component 3: Information propagation

第三个组件使用卷积或消息传递步骤来学习基于图邻接的节点表示。在多个邻接矩阵的情况下,方法使用独立的传播模型或假设一个超图公式,融合邻接矩阵与单个传播模型。

Component 4: Representation mixing

最后一个组件根据用户端任务对学习到的节点级表示进行转换。传播模型在节点上输出表示,这些表示可以根据最终的表示级别(例如,图级或子图级标签)进行组合和混合。

Geometric multimodal representation learning_第4张图片

MGL蓝图的四个组成部分如图2b所示;从输入开始,由不同模式的数据组成,以任务级表示结束。此外,在框1中,我们给出了它们的数学公式。正如我们将在接下来的部分中展示的,目前最先进的方法可以被视为MGL的实例,按三种主要的建模图类型分组:用于计算机视觉任务的图像密集型图、用于文本建模的语言密集型图、用于与自然科学相关的问题(如生物、化学和物理)的知识密集型图。

3.面向图像的多模态图学习

图像密集图(IIGs)是多模态图,其中节点表示视觉特征,边缘表示特征之间的空间联系。图像中的结构学习包含了IIGs的构建。为了了解这种结构,模型在IIGs上学习,通过修改GNN架构来编码与图像预测任务相关的归纳偏差,并融合CNNs和GNN。CNN编码与图像相关的几何先验:平移不变性和尺度分离[42]平移不变性描述了CNN的输出如何不改变依赖于输入图像的移位,并通过共享权值的卷积滤波器实现。尺度分离描述了如何可能跨尺度分解特征之间的长期相互作用,专注于较小的局部相互作用,然后可以传播到课程尺度。池化层在CNNs中跟随卷积层实现尺度分离[42]。GNN可以模拟任意形状的远程依赖关系,这对图像相关任务[43]很重要,如图像分割[44,45],图像恢复[46,47],或人体物体交互[48,49]。在本节中,我们将重点介绍MGL在图像任务中的应用,以简要概述用于构建IIGs的方法,并创建模型以了解IIGs。我们根据方法的相似性将任务分成两类: 视觉理解和视觉推理。

3.1视觉理解

视觉理解仍然是视觉分析的基石问题,在视觉分析中,多模态图学习已被证明对图像分类、分割和增强有用。图像分类标识图像[51]中存在的一组对象类别。语义图像分割是对一幅图像进行分割,并将每一段划分为给定的类别列表[52],在视频对象分割[44]和遥感[45]等任务中实现。图像恢复和去噪将低质量图像转化为高分辨率图像[53]。这些任务所需要的信息不仅存在于对象、段或低质量的patch中,还存在于其周围的长期环境[52]中。

IIG的构建从分割算法开始,例如简单线性迭代聚类(Simple Linear Iterative Clustering, SLIC)算法[54]来识别有意义的区域[44,55,56](图3a)。节点用FCN-16[57]或VGG19[58]等cnn初始化的表示来表示这些有意义的区域,这些cnn用于提取每个区域的特征映射和总结视觉特征[45,52]。此外,节点与CNN学习的特征空间中的k个最近邻[45 - 47,55](图3b)连接,与空间上的相邻区域[44,51,56,59]连接,或基于之前定义的节点之间的相似性阈值[47,56]连接到任意数量的邻居。

为了在IIGs上学习,许多模型使用图卷积神经网络[45,52,56,59]或图注意网络[60]的变体,根据学习到的注意分数[47,51]来衡量邻居。图去噪网络(GCDNs)[61]、内部图神经网络(IGNNs)[46]和residualGCN[44,62]等模型包括边表示来表示区域与gate之间的相似性和相对位置,或者在进行消息传递时对节点的隐藏表示与其对应的边进行元乘。

Geometric multimodal representation learning_第5张图片

图3 多模态图学习蓝图在图像中的应用。a,用于图像理解的模态识别,其中节点代表SLIC分割算法生成的聚集的感兴趣区域或超像素。b,图像去噪的拓扑发现,图像补丁(节点)连接到其他非局部相似的补丁。c,创建两个图的人机交互中的拓扑揭示。以人类为中心的图将身体各部分映射到它们的解剖邻居,并通过相互作用将身体各部分相对于图像中其他物体的距离连接起来。d,人-物体交互中的信息传播,其中空间条件图修改消息传递,以合并强制图像中对象的相对方向的边缘特征[50]。 

3.2视觉推理

视觉推理包含的任务超越了识别和修改单个视觉元素。这些任务询问关于映像中实体之间关系的问题。这些关系可以是人与对象之间的关系,如人与对象交互[48](HOI),或者更广泛地说,在视觉、语义和数字实体之间的关系,如视觉问题回答[63,64](VQA)。MGL可以明确编码和推理在IIGs上构建和学习的相关关系。

对于HOI, MGL方法识别两个相关实体,人体部位(手、脸等)和物体(冲浪板、自行车等)[48,50],它们以完全[48,49]、二部分[50,65]或部分连接拓扑结构[66,67]相互作用。用于VQA的MGL方法构建了一种新的拓扑[68],它跨越了相互连接的可视化、语义和数值图。实体表示由提取器识别的视觉对象,如Faster R-CNN[69],由光学字符识别识别的场景文本,以及数字类型文本。这些实体之间的相互作用是基于空间定位定义的:任何靠近另一个实体的实体都与边缘相连。

为了了解这些结构,这些方法区分在相同和不同实体之间传播信息。在HOI中,同一对象之间的信息(类内消息)通过GAT进行传播,通过节点隐藏向量的相似度对消息进行加权,而不同对象之间的信息(类间消息)通过GPNN[48]实现,其交互性的权重为[49]。模型可以有多个通道,这些通道对同一类的实体进行推理,并在类之间共享信息。在HOI中,关系解析神经网络[67]使用一种双通道模型,其中以人为中心和以对象为中心的消息传递在混合这些表示以进行最终预测之前执行(图3c)。同样的情况也发生在VQA中,视觉、语义和数字通道在通过视觉-语义聚合和语义-数字聚合共享信息之前执行独立的消息传递[68,70]。其他类型的神经体系结构可以作为基于图的通道的替代[65,66]。

4.面向语言的多模态图学习

随着生成上下文语言嵌入的能力,语言模型已经广泛地重塑了自然语言[7]的分析。除了单词,语言的结构还存在于句子(语法树、依赖解析)、段落(句子到句子的关系)和文档(段落到段落的关系)等层面[71]。transformer是一种流行的语言模型[72],它可以捕获这种结构,但对计算和数据有严格的要求。MGL方法通过在模型中注入语言结构来缓解这些问题。具体来说,这些方法依赖于语言密集型图(LIGs),显式或隐式图中节点表示由语言依赖关系链接的语义特征。本节概述构建和学习LIGs的MGL方法。

4.1Constructing Language Intensive Graphs

在最高层次上,语言数据集可以被视为文档的语料库,然后是单个文档、一组句子、一组提及、一组实体,最后是单个单词(图4a)。多模态图学习可以通过构建LIGs来考虑这些不同层次的上下文信息。在这里,我们描述了上下文的选择,因为它取决于一个特定的预测任务,以及如何创建LIGs来合并这个上下文,用于文本分类和关系提取。这两个任务是大多数语言分析的基础。

在文本分类模型中,将预先确定的标签分配给一系列文本[73]。为此,有必要了解文档中单词的用法。因此,文件和文字被确定为相关实体。这些实体之间的拓扑是根据单词在文档[73,74]中的相对位置或在整个文档[75,76]中的同时出现来定义的。关系提取旨在识别文本中单词之间的关系,这是一种对其他语言任务很重要的能力,如问题回答、总结和知识图推理[77,78]。为了捕获句子中的上下文,单词实体之间的拓扑基于句子的底层依赖树[79]。单词和文档之外的实体,特别是提到和句子,被包括进来以捕获跨句子拓扑[77,80](图4a-b)

4.2Learning on Language Intensive Graphs

一旦LIG被构建,就必须设计一个模型来在图表上学习,同时结合与语言任务相关的归纳偏见。在此,我们提供了用于基于方面的情感分析(ABSA)的模型的简单例子。所述的ABSA方法适用于其他语言任务,如问答和公众意见挖掘[81]。

ABSA将文本的情绪(积极的、消极的等)赋给一个词/词或一个方面[81]。为了执行ABSA,模型必须考虑句法结构和文本中aspect和其他词之间的长期关系[82,83]。为了在长距离词关系之间传播信息,面向方面的gnn在LIGs中屏蔽非面向方面的词,在面向方面词之间进行消息传递[82]。它们还在单词和方面单词的隐藏向量之间建立或执行元素智慧乘法[84]。为了包含关于句法结构的信息,gnn通过特定类型的消息传递来区分依赖树中不同类型的关系[82-84](图4c)。

对于ABSA来说,相邻或相似句子的情感是很重要的[81]。协同图注意网络(CoGAN)通过两个基于图的建模块之间的合作实现了这一点:方面间和方面内建模块(图4d)[81]。这些块捕获具有相同方面(内部方面)的句子与其他句子之间的关系,以及文档中包含不同方面(内部方面)的相邻句子之间的关系。方面内部和方面间块的输出混合在一个交互块中,通过一系列隐藏层。通过学习到的注意权值融合各隐层之间的中间表示,形成最终的句子表示。

Geometric multimodal representation learning_第6张图片

图4多模态图学习蓝图在文本中的应用。a、从句子到文件的文本输入的不同语境层次,以及在每个语境层次上确定的个体单位。这是MGL蓝图中模态识别的第一个组件的一个例子。b,从文本输入简化语言密集图的构造,MGL蓝图的拓扑揭示组件的应用。c和d,可视化在基于方面的情感分析(ABSA)的LIGs上学习的例子,ABSA旨在将一种情感(积极的、消极的或中性的)分配到一个与给定方面相关的句子。通过在句子中按关系类型分组(如c所示)或对句子和方面之间的关系建模(如d所示),这些方法集成了与ABSA相关的归纳偏见,并在MGL蓝图的第三个组成部分——信息传播方面进行了创新。

5.自然科学中的多模态图学习

除了语言建模和计算机视觉领域,图表越来越多地应用于自然科学。我们称这些图为知识密集型图(KIGs),因为它们对与特定应用领域相关的结构领域知识进行编码。在下一节中,我们将重点介绍MGL在自然科学,特别是物理、化学和生物学中最普遍的应用。我们描述了MGL方法如何将与特定任务相关的归纳偏差纳入到KIG建模中。

Geometric multimodal representation learning_第7张图片

图5多模态图学习蓝图在自然科学中的应用。a、物理相互作用中的信息传播,其中,由于粒子间的相互作用和其他力,物理信息神经消息传递用于更新系统中粒子的状态。b,分子推理中的信息传播,使用全局注意机制来模拟两个分子中原子之间的潜在相互作用,以预测两个分子是否会发生反应。c,蛋白质建模中的拓扑发现,使用多尺度图表示将蛋白质的一级、二级和三级结构与分子超像素中总结的高级蛋白质基序集成,以表示蛋白质[27]。这种强大的拓扑结构为蛋白质-配体结合亲和力预测等任务提供了更好的预测。

6.前景

6.1完全多通道架构

现有的方法主要使用领域专用函数从不同的模态中提取信息,并构建不同模态之间的连接结构。然而,变压器的最新进展允许设计新的方法,使它们能够参数化地识别实体。此外,无监督的方法,如图自动编码器,提供了一种表达策略来生成连接图,考虑到不同模式之间的关系依赖。本研究提出了MGL蓝图,为统一现有的多模态模型和灵活设计新方法提供了工具。

此外,MGL蓝图中的拓扑揭示组件允许我们超越简单的图结构,进入更复杂的形式。一个更复杂结构的例子是超图[116],其中一个高阶边可以连接任意数量的节点,可以被证明非常成功地更准确地表示图组件[117,118]。在相同的方向上,人们可以通过MGL定义异构图来编码不同类型的顶点和关系。这样的一般化需要新的消息传递模型的定义,这些模型可以沿着复杂的图结构传播神经消息。

除了对复杂结构进行推理之外,还需要对MGL的传播信息和混合表示组件进行新颖的实现,以将归纳偏见纳入到MGL蓝图的结构元素的学习中(第2节)。将领域特定知识注入神经体系结构以提高:(1)数据效率:通常,在这些领域,由于获取数据的难度,与图像和文本相比,数据可用性较低。通过整合这些归纳偏差,可以以数据高效的方式训练模型,因为模型不需要发明相关的基本原则,而是可以从一开始就知道这些原则,因此成功训练所需的数据更少;(2)可解释性和可解释性:在这个空间的模型通常被用来发现关于自然世界的新东西,而不仅仅是在一个良好定义的任务中表现良好。因此,可解释性和可解释性是至关重要的。通过协调现有领域知识的算法设计,可以在这两方面都有所改进;(3)概括性:利用和学习各个领域的基本真理的模型,其概括性将得到提高,因为这些真理将通过各种各样的数据点进行访问。

6.2新类型的归纳偏差

我们在这里聚焦于三个领域:图像密集图、语言密集图和知识密集图,以调查正在进行的研究,并强调这种算法创新对扩大多模态图学习的范围和适用性的影响。我们设想,MGL可以为其他领域的多模态架构设计铺平道路,在这些领域中,多源数据的关系偏差可能是至关重要的。例如,知识蒸馏(KD)关注的是将知识从一个较大的教师网络转移到一个较小的学生网络,以一种在使用更少资源的同时保持任务表现的方式。关系型KD[119, 120]试图利用数据实例之间的关系来增加原始的知识提取任务。可以构建知识密集型图[121-123],将数据实例建模为节点,它们的关系为边,并基于这种底层关系结构创建损失函数来增加关系KD。

MGL的另一个新用途是以可见神经网络的形式,涉及到将归纳偏差编码到神经结构本身的设计中。特别是,在可见的神经网络中,节点表示隐藏的单元,对应于系统组织(如细胞)的不同规模的概念(如分子、通路),范围从小的复合物到大的信号通路[124]。节点的连接基于它们的概念关系,消息传递使用前向和后向传播。这些可见的神经网络减少了可训练参数的数量,允许在更小的数据集上进行实际训练,并由于神经体系[2]中的知识稀疏性提高了可解释性。

6.3在自然科学和医学上的突破性应用

深度学习在自然科学中的广泛应用揭示了图表示在建模小分子和大分子结构方面的能力。允许不同类型的数据的组合可以在分子和生物层次之间建立桥梁,以大规模建模物理、化学或生物现象。最近的知识图谱应用已经被引入,以实现精准医疗,并在基因组、制药和临床领域进行预测[125,126]。MGL可以激发模型的设计,这些模型可以对这些知识图进行推断,推动生命科学的前沿。

 

 

你可能感兴趣的:(研究方向,人工智能)