Learning Human-Object Interactions by Graph Parsing Neural Networks (ECCV 2018)
本文研究了图像和视频中人-物交互(HOI)的检测和识别问题。本文介绍了图解析神经网络(GPNN),它是一种端到端可微的结构知识集成框架。对于给定的场景,GPNN推断一个解析图,该解析图包括i)由邻接矩阵表示的HOI图结构,以及ii)节点标签。在消息传递推理框架中,GPNN迭代计算邻接矩阵和节点标签。我们在图像和视频的三个HOI检测基准上广泛评估了我们的模型:HICO-DET、V-COCO和CAD-120数据集。我们的方法明显优于目前最先进的方法,验证了GPNN对大型数据集的可伸缩性以及对时空设置的适用性。
https://github.com/SiyuanQi/gpnn
176★
Learning Conditioned Graph Structures for Interpretable Visual Question Answering (NIPS2018)
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用两个流策略,计算图像和问题特征,因此使用多种技术合并。然而,很少有人依赖于更高层次的图像表示,它可以捕捉语义和空间关系。本文提出了一种基于图的可视化问答方法。我们的方法结合了一个图形学习模块,该模块学习输入图像的特定于问题的图形表示,以及最近的图形卷积概念,旨在学习捕获特定于问题的交互的图像表示。我们在VQA v2数据集上测试了我们的方法,使用了一个简单的基线架构,该架构由所提出的图形学习模块增强。结果表明,该方法具有良好的解释性,准确率为66.18%。
https://github.com/aimbrain/vqa-project
106★
Structural-RNN: Deep Learning on Spatio-Temporal Graphs (CVPR2016)
深层递归神经网络结构虽然对序列的建模能力很强,但缺乏直观的高层时空结构。尽管计算机视觉中的许多问题本质上都有一个潜在的高层结构,可以从中受益。时空图是一种流行的工具,可以在真实世界问题的表达中强加如此高层次的直觉。本文提出了一种将高阶时空图的能力与递归神经网络(RNNs)序列学习成功率相结合的方法。我们发展了一种可伸缩的方法,将任意时空图投射成一个丰富的RNN混合体,它是前馈的、完全可微的、可联合训练的。该方法具有通用性和原则性,可以通过一组定义良好的步骤来变换任意时空图。对所提出的方法在从人体运动建模到对象交互等一系列不同问题上的评估表明,该方法比最新技术有了很大的改进。我们期望这种方法能够通过高层次的时空图和递归神经网络赋予新的问题描述方法。
https://github.com/asheshjain399/RNNexp
202★
Understanding Kin Relationships in a Photo (TMM2012)
由于最近在网络上,特别是在社交媒体上,此类数据激增,迫切需要自动组织和管理人们的图像。除了在过去十年中被广泛研究的人脸检测和人脸识别之外,也许与以人为中心的图像相关的最有趣的方面是图像中人与人之间的关系。在这项工作中,我们着重于解决后一个问题,特别是亲属关系。为此,我们构建了两个数据库:第一个数据库名为UB KinFace Ver2.0,它包含了孩子、他们的年轻父母和老父母的图像,第二个数据库名为FamilyFace。其次,我们发展了一个基于转移子空间学习的演算法,以减少儿童与老年父母脸部影像在外观分布上的显著差异。此外,通过研究相关元数据的语义相关性,我们提出了一种预测图像中最可能嵌入的亲属关系的算法。此外,在两个数据库的基线研究中使用了人类受试者。实验结果表明,该算法能够有效地标注图像中人与人之间的亲属关系,语义上下文可以进一步提高算法的准确性。
Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering (NIPS2018)
准确地回答关于给定图像的问题需要结合观察和一般知识。虽然这对人类来说是毫不费力的,但用一般知识进行推理仍然是一个算法挑战。为了推进这方面的研究,最近提出了一个新颖的“基于事实的”视觉问答(FVQA)任务,并通过一个关系将两个实体(即两个可能的答案)链接起来。在给定问题-图像对的情况下,深度网络技术被用来连续地减少大量的事实,直到最后剩余事实的两个实体中的一个被预测为答案为止。我们观察到,一次考虑一个事实形成局部决策的连续过程是次优的。相反,我们开发了一个实体图,并使用图卷积网络通过联合考虑所有实体来“推理”正确答案。我们在具有挑战性的FVQA数据集上显示,与目前的技术水平相比,这将导致精度提高约7%。
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (AAAI2018)
人体骨骼的动力学特性为人类行为识别提供了重要的信息。传统的骨骼建模方法通常依赖于手工制作的零件或遍历规则,从而导致有限的表达能力和推广困难。在这项工作中,我们提出了一种新的动态骨架模型,称为时空图卷积网络(ST-GCN),它超越了以往方法的局限性,通过从数据中自动学习时空模式。该公式不仅具有较强的表达能力,而且具有较强的泛化能力。在动力学和NTU-RGBD两个大型数据集上,它比主流方法有了实质性的改进。
https://github.com/open-mmlab/mmskeleton
1.5k★
Symbolic Graph Reasoning Meets Convolutions (NIPS2018)
除了局部卷积网络之外,我们还探讨如何利用各种外部人类知识赋予网络语义全局推理的能力。我们提出了一个新的符号图推理(SGR)层,它不使用单独的图形模型(如CRF)或约束来建模更广泛的依赖关系,而是在一组符号节点上执行推理,这些节点的输出显式地表示先验知识图中每个语义的不同属性。为了配合局部卷积,每个SGR由三个模块组成:a)一个原始的局部到语义投票模块,其中所有符号节点的特征由局部表示投票生成;b)一个图形推理模块在知识图上传播信息以实现全局语义一致性;c)双语义到局部映射模块学习进化符号节点与局部表示的新关联,从而增强局部特征。SGR层可以注入到任何卷积层之间,并用不同的先验图实例化。大量实验表明,在三个语义分割任务和一个图像分类任务中,加入SGR可以显著地改善普通ConvNets。进一步的分析表明,SGR层在给定一个通用知识图的情况下,学习不同标记集的域/数据集的共享符号表示,显示了其优越的泛化能力。
https://github.com/julianschoep/SGRLayer
(不见得是官方开源)
5★
Graph-Structured Representations for Visual Question Answering (CVPR2017)
提出了一种基于场景内容和问题结构化表示的可视化问答系统(VQA)。VQA的一个关键挑战是需要在可视域和文本域上进行联合推理。主要的基于CNN/LSTM的VQA方法受到整体矢量表示的限制,这种表示很大程度上忽略了场景和问题中的结构。美国有线电视新闻网的特征向量不能有效地捕捉多个对象实例的简单情况,LSTM将问题处理成一系列的单词,这不能反映语言结构的真实复杂性。相反,我们建议在场景对象和疑问词上构建图形,并且我们描述了一个利用这些表示中的结构的深层神经网络。我们表明,这种方法比最先进的方法有了显著的改进,在“抽象场景”多项选择基准上,准确率从71.2%提高到74.4%,在更具挑战性的“平衡”场景中,准确率从34.7%提高到39.1%,即具有细粒度差异的图像对和对同一问题的相反是/否答案
The More You Know: Using Knowledge Graphs for Image Classification (cvpr2017)
使人类区别于现代基于学习的计算机视觉算法的一个特点是,能够获取关于世界的知识,并利用这些知识对视觉世界进行推理。人类可以通过学习物体的特征和它们之间的关系来学习各种各样的视觉概念,通常很少有例子。本文研究了以知识图的形式使用结构化先验知识,并证明了使用该知识可以提高图像分类的性能。我们在最近关于图的端到端学习的工作的基础上,引入图搜索神经网络作为一种有效地将大型知识图合并到视觉分类管道中的方法。实验表明,该方法在多标签分类中优于标准神经网络基线。
Relation Networks for Object Detection (CVPR2018)
尽管多年来人们普遍认为,建模对象之间的关系将有助于对象识别,但还没有证据表明这一想法在深度学习时代起作用。所有最先进的对象检测系统仍然依赖于单独识别对象实例,而不需要在学习过程中利用它们之间的关系。本文提出了一个对象关系模块。它通过对象的外观特征和几何体之间的交互作用同时处理一组对象,从而允许对它们之间的关系进行建模。它是轻巧和到位。它不需要额外的监督,并且很容易嵌入到现有的网络中。在现代的目标检测流水线中,该方法对提高目标识别率和消除重复步骤具有很好的效果。验证了CNN检测中对象关系建模的有效性。它产生了第一个完全端到端的目标检测器。
https://github.com/msracver/Relation-Networks-for-Object-Detection
858★
Dynamic Graph CNN for Learning on Point Clouds
点云提供了适合于计算机图形学中无数应用的灵活的几何表示;它们还包括大多数3D数据采集设备的原始输出。虽然手工设计的点云特征在图形和视觉领域早已被提出,但是最近卷积神经网络(CNNs)在图像分析方面取得的巨大成功表明,将CNN的洞察力应用于点云世界是有价值的。点云本身缺乏拓扑信息,因此设计一个拓扑恢复模型可以丰富点云的表示能力。为此,我们提出了一个新的神经网络模块EdgeConv,它适用于基于CNN的点云高级任务,包括分类和分割。EdgeConv作用于在网络的每一层中动态计算的图。它是可微分的,并且可以插入到现有的体系结构中。与现有的外部空间中的模块或独立地处理每个点相比,EdgeConv具有一些吸引人的特性:它包含局部邻域信息;它可以被堆叠应用于学习全局形状属性;在多层系统中,特征空间中的相似性在原始嵌入中捕获潜在的长距离语义特征。我们在包括ModelNet40、ShapeNetPart和S3DIS在内的标准基准上展示了模型的性能
https://github.com/GrumpyZhou/pytorch-dgcnn
(不见得是官方开源)
3D Graph Neural Networks for RGBD Semantic Segmentation
RGBD语义分割需要对二维外观和三维几何信息进行联合推理。本文提出了一种在三维点云上建立k近邻图的三维图形神经网络(3DGNN)。图中的每个节点对应于一组点,并与一个隐藏的表示向量相关联,该隐藏的表示向量由一元CNN从2D图像中提取的外观特征初始化。每个节点依赖于递归函数,根据当前状态和来自其邻居的传入消息动态更新其隐藏表示。该传播模型在一定的时间步长内展开,最终的每节点表示用于预测每个像素的语义类。我们使用时间反向传播来训练模型。在NYUD2和SUN-RGBD数据集上的大量实验证明了我们的方法的有效性。
https://github.com/yanx27/3DGNN_pytorch
(不见得是官方开源)
Iterative Visual Reasoning Beyond Convolutions (CVPR 2018)
提出了一种新的迭代视觉推理框架。我们的框架超越了现有的识别系统,这些系统缺乏超越卷积堆栈的推理能力。该框架由两个核心模块组成:一个使用空间存储器[4]存储先前信念并进行并行更新的本地模块;一个全局图推理模块。我们的图形模块有三个组件:a)一个知识图,其中我们将类表示为节点,并构建边以编码它们之间不同类型的语义关系;b)当前图像的区域图,其中图像中的区域是节点,并且这些区域之间的空间关系是边;c)一个分配图,分配区域到类。本地模块和全局模块都以迭代方式展开预测,并相互交叉馈送以优化估计。最后的预测是将两个模块中的最佳模块与注意机制相结合。与普通的ConvNets相比,我们表现出了强大的性能,例如,通过每类平均精度测量,在ADE[55]上实现了8.4%的绝对改进。分析还表明,该框架对缺失的推理区域具有很强的适应性。
https://github.com/endernewton/iter-reason
253
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation (CVPR 2017)
点云是一种重要的几何数据结构。由于其不规则的格式,大多数研究人员将这些数据转换成规则的三维体素网格或图像集合。然而,这会使数据变得不必要的庞大并导致问题。本文设计了一种新型的直接消耗点云的神经网络,它很好地尊重了输入点的排列不变性。我们的网络名为PointNet,它为从对象分类、部件分割到场景语义分析等应用程序提供了一个统一的体系结构。虽然简单,但PointNet是高效的。从经验上看,它的表现不逊于甚至超过了最先进的水平。理论上,我们提供分析,以了解网络所学到的知识以及为什么网络在输入扰动和破坏方面是健壮的。
https://github.com/charlesq34/pointnet
Dynamic Edge-Conditioned Filters in Convolutional Neural Networks on Graphs
许多问题可以表述为对图结构数据的预测。在这项工作中,我们将卷积算子从规则网格推广到任意图,同时避免了谱域,这使得我们可以处理不同大小和连通性的图。为了超越简单的扩散,过滤权重是基于顶点邻域中的特定边标签的。在选择适当的粗化方法的基础上,我们探索了构造用于图分类的深层神经网络。特别是,我们在点云分类中展示了我们的公式的通用性,在点云分类中,我们设置了最新的技术状态,在图分类数据集上,我们优于其他深度学习方法。源代码位于
https://github.com/mys007/ecc.
145
Situation Recognition with Graph Neural Networks
我们解决了在图像中识别情况的问题。给定一个图像,任务是预测最显著的动词(动作),并填充其语义角色,如谁在执行动作,动作的来源和目标是什么等。不同的动词有不同的角色(如攻击有武器),每个角色可以承担许多可能的值(名词)。我们提出了一个基于图神经网络的模型,该模型允许我们使用定义在图上的神经网络来有效地捕获角色之间的联合依赖关系。用不同的图形表示器进行的实验表明,我们在角色之间传播信息的方法明显优于现有的工作,以及多个基线。我们得到了大约3-5%的改善,比以前的工作预测的全面情况。我们还对我们的模型和动词中不同角色的影响进行了深入的定性分析。
I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs (AAAI2019)
近年来,随着动作类别的不断增加,通过自动挖掘视频中的基本概念(如动作、属性),实现了零拍动作识别(ZSAR)。然而,大多数现有的方法仅利用这些概念的视觉线索,而忽略外部知识信息来建模它们之间的显式关系。事实上,人类有非凡的能力将从熟悉的类中学习到的知识转移到识别不熟悉的类中。为了缩小现有方法和人类之间的知识差距,我们提出了一种基于结构化知识图的端到端ZSAR框架,它可以联合建模动作属性、动作动作和属性属性之间的关系。为了有效地利用知识图,我们设计了一个由分类器分支和实例分支组成的双流图卷积网络(TS-GCN)。具体来说,分类器分支将所有概念的语义嵌入向量作为输入,然后生成动作类别的分类器。实例分支将每个视频实例的属性嵌入和分数映射到属性特征空间。最后,根据每个视频的属性特征对生成的分类器进行评价,并采用分类损失来优化整个网络。此外,还利用自我注意模块对视频的时间信息进行建模。在奥林匹克运动、HMDB51和UCF101三个现实动作基准上的大量实验结果表明,我们提出的框架具有良好的性能。
https://github.com/junyuGao/Zero-Shot-Action-Recognition-with-Two-Stream-GCN
66
Conversation Modeling on Reddit using a Graph-Structured LSTM
本文提出了一种新的基于图结构双向LSTM的社交媒体讨论建模方法,该方法同时表示了层次会话结构和时间会话结构。在对Reddit讨论中的评论流行度进行预测的实验中,对于不同的输入特征集,该模型的性能优于独立于节点的体系结构。分析表明,在整个讨论过程中,该模型有助于提高早期和后期的检测能力。此外,在双向树状态更新中使用语言提示有助于识别有争议的注释。
Learning Graphical State Transitions (ICLR 2017)
图结构数据在建模多个实体之间的关系时非常重要,可以用来表示世界的状态和许多数据结构。Li等人。(2016)描述一个称为门控图序列神经网络(GGS-NN)的模型,该模型从图结构输入生成序列。本文介绍了门控图变换神经网络(GGT-NN),它是GGS神经网络的一个扩展,使用图结构数据作为中间表示。该模型可以学习基于文本输入以复杂的方式构造和修改图形,还可以使用图形生成各种输出。例如,该模型成功地解决了几乎所有的bAbI任务(Weston等人,2016),还发现了控制简单细胞自动机和图灵机器族的图形公式的规则。
https://github.com/hexahedria/gated-graph-transformer-network
148
Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation (EMNLP)
事件抽取在自然语言处理中具有实用价值。在现实世界中,在同一句子中存在多个事件是一个普遍现象,提取它们比提取单个事件更困难。以往通过顺序建模方法对事件之间的关联进行建模的工作,在捕获非常长的依赖关系方面效率很低。本文提出了一种新的联合多事件抽取(JMEE)框架,通过引入句法捷径弧来增强信息流和基于注意的图卷积网络来对图信息进行建模,从而联合抽取多个事件触发器和参数。实验结果表明,与现有方法相比,本文提出的框架具有较强的竞争力。
https://github.com/lx865712528/EMNLP2018-JMEE
91
Deep Reasoning with Knowledge Graph for Social Relationship Understanding (IJCAI 2018)
社交关系(如朋友、夫妇等)构成了我们日常生活中社交网络的基础。自动解释这种关系对于智能系统深入理解人类行为和在社会层面更好地与人互动具有巨大潜力。人类对群体内的社会关系的解释不仅是基于人本身,而且这种社会关系与人周围的语境信息之间的相互作用也起着重要的作用。然而,这些额外的线索在很大程度上被先前的研究所忽略。我们发现这两个因素之间的相互作用可以通过一个具有适当信息传播和注意的新的结构化知识图来有效地建模。通过一个端到端可训练的图形推理模型(GRM),学习一种传播机制,通过图形传播节点信息,探索感兴趣的人与被关注的人之间的交互作用,并将这种结构化的知识有效地集成到深层神经网络结构中,以促进对社会关系的理解上下文对象。同时,引入图形注意机制,对判别对象进行显式推理,促进识别。在公共基准上的广泛实验证明了我们的方法优于现有的领先竞争者。
https://github.com/HCPLab-SYSU/SR.
24
Graph CNNs with Motif and Variable Temporal Block for Skeleton-based Action Recognition
人体骨骼中关节的层次结构和不同的语义角色为动作识别提供了重要信息。传统的骨架结构建模的图形卷积方法只考虑每个关节的物理连接邻域,以及同一类型的关节,无法获取高阶信息。在这项工作中,我们提出了一个新的基于motif图卷积的模型来编码分层的空间结构,以及一个可变的时间密集块来利用不同范围的人类骨骼序列的局部时间信息。此外,在注意机制中,我们使用非局部块来捕获时域的全局依赖性。我们的模型在两个大型数据集上实现了对现有方法的改进。
Multi-Label Image Recognition with Graph Convolutional Networks (CVPR 2019)
多标签图像识别的任务是预测图像中存在的一组目标标签。由于对象通常同时出现在图像中,因此需要对标签相关性进行建模,以提高识别性能。为了捕获和挖掘这种重要的依赖关系,我们提出了一种基于图卷积网络(GCN)的多标签分类模型。该模型在对象标签上建立有向图,每个节点(标签)由标签的字嵌入来表示,并学习GCN将该标签图映射到一组相互依赖的对象分类器中。这些分类器应用于由另一个子网提取的图像描述符,使得整个网络能够端到端地训练。此外,我们还提出了一种新的重加权方案来建立一个有效的标签相关矩阵来指导GCN中节点间的信息传播。两个多标签图像识别数据集的实验表明,我们的方法明显优于其他现有的最先进的方法。此外,可视化分析表明,该模型所学习的分类器保持了有意义的语义拓扑。
https://github.com/Megvii-Nanjing/ML_GCN
555
Spatial-aware Graph Relation Network for Large-scale Object Detection
如何在不需要任何外部知识的情况下正确编码检测系统中的高阶对象关系?如何利用共现和对象位置之间的信息进行更好的推理?这些问题是目前大规模目标检测系统面临的关键挑战,该系统旨在识别成千上万个复杂空间和语义关系的目标。提取可能影响目标识别的关键关系至关重要,因为在面对大量的长尾数据分布和大量令人困惑的类别时,分别处理每个区域会导致性能大幅下降。最近的研究试图通过构造图来编码关系,例如使用类之间的手工语言知识或隐式学习区域之间的完全连接图。然而,由于语言和视觉语境之间的语义差异,手工语言知识不能针对每幅图像进行个性化,而完全连接的图形由于包含了来自无关对象和背景的冗余和分心的关系/边而效率低下且噪声大。在这项工作中,我们引入了一个空间感知图关系网络(SGRN)来自适应地发现和合并关键的语义和空间关系,以便对每个对象进行推理。我们的方法考虑了相对位置布局和相互作用,可以很容易地注入到任何检测管道中以提高性能。具体来说,我们的SGRN集成了一个图形学习模块来学习一个可互操作的稀疏图形结构来编码相关的上下文区域,以及一个具有可学习的空间高斯核的空间图形推理模块来执行具有空间感知的图形推理。大量的实验验证了该方法的有效性,例如在VG(3000个类)上提高了32%,在ADE上提高了28%。
GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain Adaptation
为了将源域和目标域连接起来进行域自适应,有三种重要的信息类型:数据结构、域标签和类标签。大多数现有的域自适应方法只利用一种或两种类型的上述信息,不能使它们互补和增强。与现有的方法不同,在统一的深度模型中,通过联合建模数据结构、域标签和类标签,提出了一种无监督域自适应的端到端图卷积对抗网络(GCAN)。所提出的GCAN模型具有许多优点。首先,据我们所知,这是第一个在无监督域自适应的深度模型中联合建模这三种信息的工作。其次,该模型设计了三种有效的对齐机制,包括结构感知对齐、域对齐和类质心对齐,它们可以有效地学习域不变量和语义表示,以减少域适应的域差异。在五个标准测试点上的大量实验结果表明,该算法对无监督域自适应方法的状态具有良好的性能。
Mind Your Neighbours: Image Annotation with Metadata Neighbourhood Graph Co-Attention Networks
作为我们日常生活的视觉反映,图像经常在社交网络上共享,这就产生了丰富的“元数据”,记录用户与图像的交互。由于内容的多样性和风格的复杂性,有些图像在忽略上下文的情况下很难识别。具有类似元数据的图像(如“相关主题和文本描述”、“用户的共同朋友”和“附近位置”)构成每个图像的邻域,可用于辅助注释。本文提出了一个元数据邻域图协同注意网络(MangoNet),用于建立目标图像与其邻域之间的相关性模型。为了准确地从邻域中获取视觉线索,引入了一种联合注意机制,将目标图像及其邻域嵌入为图节点,而图边缘则捕获节点对的相关性。通过对邻域图的推理,得到有助于目标图像标注的图表示。在三个基准数据集上的实验结果表明,与现有方法相比,我们提出的模型取得了最好的性能。
Learning a Deep ConvNet for Multi-label Classification with Partial Labels
Deep ConvNets在单标签图像分类(如ImageNet)方面表现出了很好的性能,但是有必要超越单标签分类任务,因为日常生活中的图片本质上是多标签的。多标签分类比单标签分类更困难,因为输入图像和输出标签空间都更复杂。此外,收集干净的多标签注释比单标签注释更难扩展。为了降低标注成本,我们建议训练一个带有部分标签的模型,即每个图像只有一些标签是已知的。我们首先对不同的标记策略进行了经验比较,以显示在多标记数据集上使用部分标记的潜力。然后,为了学习部分标签,我们引入了一个新的分类损失,利用每个例子中已知标签的比例。我们的方法允许使用与使用所有注释学习时相同的训练设置。我们进一步探讨了几种基于课程学习的策略来预测缺失的标签。在MS-COCO、NUS-WIDE和Open三个大规模多标签数据集上进行了实验
Learning to Cluster Faces on an Affinity Graph (CVPR2019)
近年来,面部识别仍在继续,其表现达到了极高的水平。考虑到这一点,下一个层次需要大量的数据,这将涉及禁止注释的费用。Hence,exploring unlabeled data becomes an appealing alternative.最近的作品表明,聚类不加标记的面孔是一种前瞻性的方法,常常带领人们取得显著的成绩。Yet,how to effectively cluster,especially on a large-scale(一个关键的挑战是群集模式复杂变异中的一个关键因素,这使得传统群集方法难以满足精确性的需要。This work explores a novel approach,namely,learning to cluster instead of relying on hand-crafted criteria.具体地说,我们提供了一个基于图形卷积网络的框架,该框架结合了一个检测和一个分割模块到Pinpoint Face Clusters。实验表明,我们的方法的产量显著提高了面积的精度,作为一个结果,同时引导了面部识别中的进一步性能增益
https://github.com/yl-1993/learn-to-cluster
225
Auto-Encoding Scene Graphs for Image Captioning
我们提出了一种场景图自动编码器(SGAE),它将语言归纳偏差融入到编码器的图像字幕框架中,以获得更像人类的字幕。直觉上,我们人类在语篇中使用归纳偏误来构成搭配和语境推理。例如,当我们看到“骑自行车的人”的关系时,很自然地用“骑”来代替“骑”来推断“骑自行车的人”甚至“路”也不明显。因此,利用这样的偏差作为语言先验,有望帮助传统的编解码模型不太可能过度适应数据集的偏差,并专注于推理。具体来说,我们使用场景图-一个有向图(G),其中一个对象节点由形容词节点和关系节点连接-来表示图像(I)和句子(S)的复杂结构布局。在文本域中,我们使用SGAE学习字典(D),该字典有助于在S→G→D→S管道中重建句子,其中D优先编码所需的语言;在视觉语言域中,我们使用共享D引导I→G→D→S管道中的编码器-解码器。由于场景图表示和共享字典,归纳偏差原则上是跨域传递的。我们验证了SGAE在挑战性的MS-COCO图像字幕基准上的有效性,例如,我们基于SGAE的单一模型在Karpathy分割上实现了art 127.8 CIDEr-D的新状态,在官方服务器上实现了竞争性的125.5 CIDEr-D(c40),甚至与其他集成模型相比也是如此。
Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection (CVPR 2019)
弱标签下的视频异常检测是一个典型的多实例学习问题。本文提出了一种新的视角,即噪声标签下的有监督学习任务。在这种观点下,只要清除标签噪声,我们可以直接应用完全监督的行动分类器,以弱监督异常检测,并最大限度地利用这些发达的分类器。为此,我们设计了一个图卷积网络来校正噪声标签。基于特征相似度和时间一致性,我们的网络将监控信号从高置信度片段传播到低置信度片段。通过这种方式,网络能够为动作分类器提供干净的监督。在测试阶段,我们只需要从动作分类器获得片段式的预测,而不需要任何额外的后处理。在3个不同尺度的数据集上用2种动作分类器进行了大量实验,证明了该方法的有效性。值得注意的是,我们获得了UCF犯罪82.12%的框架级AUC分数。
https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection
91
Learning Actor Relation Graphs for Group Activity Recognition (CVPR 2019)
多人场景中,角色之间的关系建模对于识别群体活动具有重要意义。本文旨在利用深度模型有效地学习行为体之间的判别关系。为此,我们提出建立一个灵活高效的演员关系图(ARG),以同时捕捉演员之间的外观和位置关系。借助于图形卷积网络,ARG中的连接可以从群体活动视频中自动学习到端到端的连接,并且可以用标准的矩阵运算有效地进行ARG的推理。此外,在实际应用中,我们提出了两个变量来稀疏ARG,以便在视频中进行更有效的建模:空间局部ARG和时间随机ARG。我们对两个标准的群体活动识别数据集:排球数据集和集体活动数据集进行了广泛的实验,在这两个数据集上都取得了最新的性能。我们还将学习到的参与者图和关系特征可视化,证明了所提出的ARG能够捕获用于群体活动识别的判别关系信息。
https://github.com/wjchaoGit/Group-Activity-Recognition
83
ABC: A Big CAD Model Dataset For Geometric Deep Learning
我们介绍了ABC数据集,这是一个收集了100万个计算机辅助设计(CAD)模型的集合,用于几何深度学习方法和应用的研究。每个模型都是一组显式参数化的曲线和曲面,为微分量、面片分割、几何特征检测和形状重建提供了基本信息。通过对曲面和曲线的参数化描述进行采样,可以生成不同格式和分辨率的数据,从而可以对各种几何学习算法进行公平比较。作为我们的数据集的用例,我们执行一个大规模的基准估计表面法线,比较现有的数据驱动的方法,并评估其性能的地面真理和传统的正常估计方法。
https://deep-geometry.github.io/abc-dataset
Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks
引用表达式理解的任务是将对象实例定位在由自然语言中的引用表达式描述的图像中。作为一种语言到视觉的匹配任务,该问题的关键是学习一种能够适应所用表达式的区分性对象特征。为了避免歧义,表达式通常不仅倾向于描述参照物本身的属性,而且还倾向于描述其与邻域的关系。为了捕获和利用这些重要信息,我们提出了一种基于图的、语言引导的注意机制。由节点注意组件和边缘注意组件组成,所提出的图形注意机制明确地表示对象间的关系,并且具有灵活性和功率的属性不可能与竞争的方法相结合。此外,所提出的图形注意机制可以使理解决策可视化和可解释。在三个参考表达理解数据集上的实验表明了该方法的优越性。
Graph-Based Global Reasoning Networks
区域间关系的全局建模和推理对于图像和视频上的许多计算机视觉任务都是有益的。卷积神经网络(CNNs)擅长于通过卷积运算来建模局部关系,但它们通常在捕获远处区域之间的全局关系方面效率低下,并且需要叠加多个卷积层。在这项工作中,我们提出了一种新的全局推理方法,其中一组特征在坐标空间上全局聚合,然后投影到一个交互空间中,在交互空间中可以有效地计算关系推理。经过推理,关系感知特征被分配回原始坐标空间,用于下游任务。进一步给出了该方法的一个高效实例,并介绍了通过加权全局池和加权广播实现坐标交互空间映射的全局推理单元(GloRe单元),以及通过图卷积在交互空间中的一个小图上进行关系推理。所提出的GLOR单元是轻量级的,端到端可训练的,并且可以很容易地插入到现有CNN中用于各种任务。大量的实验表明,我们的GloRe单元能够在图像分类、语义分割和视频动作识别任务中,持续地提高2D和3D cnn的最新骨干结构的性能,包括ResNet[15,16]、ResNeXt[33]、SE Net[18]和DPN[9]。
https://github.com/kiyohiro8/GraphBasedGlobalReasoning
(非官方)
Linkage Based Face Clustering via Graph Convolution Network
本文提出了一种精确、可扩展的人脸聚类方法。我们的目标是根据一组人脸的潜在身份对其进行分组。我们把这个任务作为一个链接预测问题:如果两个人脸具有相同的身份,则存在一个链接。其核心思想是在一个实例(面)周围的特征空间中发现局部上下文,其中包含了该实例与其邻域之间的链接关系的丰富信息。通过在每个实例周围构造子图作为描述局部上下文的输入数据,利用图卷积网络(GCN)进行推理,推断子图中成对关联的可能性。实验表明,与传统方法相比,该方法对复杂的人脸分布具有更强的鲁棒性,在标准人脸聚类基准上的结果与现有方法具有良好的可比性,并且可以扩展到大型数据集。此外,我们还证明了所提出的方法不需要像先前那样的聚类数目,并且能够感知噪声和异常值,并且可以扩展到多视图版本以获得更精确的聚类精度。一
https://github.com/Zhongdao/gcn_clustering/.
Fast Interactive Object Annotation with Curve-GCN (CVPR 2019)
通过跟踪对象的边界来手动标记对象是一个费力的过程。在[7,2]中,作者提出了polygornn,它使用CNN-RNN架构以递归的方式生成多边形注释,允许通过循环中的人类进行交互式校正。我们提出了一个新的框架,通过使用图卷积网络(GCN)同时预测所有顶点,来减轻polygonn的序列性质。我们的模型是从头到脚训练的。它支持通过多边形或样条线进行对象注释,从而提高了基于直线和曲线对象的标记效率。我们表明,曲线GCN优于所有现有的方法在自动模式,包括强大的PSP DeDIPAB〔8, 23〕,并且在交互模式下比多边形RNN++更有效。我们的模型在自动模式下运行29.3ms,在交互模式下运行2.6ms,比Polygon RNN快10倍和100倍++
https://github.com/fidler-lab/curve-gcn
591
Semantic Graph Convolutional Networks for 3D Human Pose Regression (CVPR 2019)
本文研究了回归图卷积网络的学习问题。目前GCNs的结构局限于卷积滤波器的小接收场和每个节点的共享变换矩阵。为了解决这些局限性,我们提出了语义图卷积网络(SemGCN),一种新的神经网络结构,用于处理具有图结构数据的回归任务。SemGCN学习捕获语义信息,如局部和全局节点关系,这些信息在图中没有明确表示。这些语义关系可以通过端到端的训练从基本事实中学习,而无需额外的监督或手工规则。我们进一步研究了SemGCN在三维人体姿态回归中的应用。我们的公式是直观和充分的,因为二维和三维人体姿势都可以表示为一个结构化的图形编码关节之间的关系在人体骨架。我们进行了全面的研究来验证我们的方法。结果表明,在减少90%参数的情况下,SemGCN的性能优于现有技术。
https://github.com/garyzhao/SemGCN
113
MAN: Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment (CVPR)
这项研究致力于在长而未经修剪的视频流中检索自然语言时刻。这个问题并不简单,特别是当一个视频包含多个感兴趣的时刻,并且该语言描述了复杂的时间依赖关系时,这种情况经常发生在真实的场景中。我们确定了两个关键的挑战:语义失调和结构失调。然而,现有的方法分别对待不同的时刻,并没有明确地建模复杂的矩时态关系。本文提出了一种将候选矩编码和时序结构推理相结合的单镜头前向网络(MAN)框架。人类自然地在不同的时间位置和尺度上分配与语言语义一致的候选矩表示。最重要的是,我们提出将时间关系显式地建模为一个结构化图,并设计一个迭代图调整网络,以端到端的方式共同学习最佳结构。我们在两个具有挑战性的公共基准DiDeMo和Charades STA上评估了所提出的方法,在这两个基准上,我们的人的表现大大超过了最先进的水平。
https://github.com/dazhang-cv/MAN
9(还没开源完)
Occlusion-Net: 2D/3D Occluded Keypoint Localization Using Graph Networks
我们提出了Occlusion-Net1框架,它可以在很大程度上以自监督的方式预测对象被遮挡关键点的二维和三维位置。我们使用现成的检测器作为输入(例如MaskRCNN[16]),该检测器仅在可见的关键点注释上进行训练。这是这项工作中唯一的监督。然后,图编码器网络显式地对不可见边进行分类,图解码器网络从初始检测器校正被遮挡的关键点位置。这项工作的中心是一个三焦点张量损失,它为对象的其他视图中可见的闭塞关键点位置提供间接的自我监督。然后将二维关键点传递到三维图形网络中,该网络使用自监督重投影损失估计三维形状和相机姿态。在测试时,遮挡网络在一组不同的遮挡设置下成功地在单个视图中定位关键点。我们验证了我们的方法对合成CAD数据以及一个大型图像集捕获车辆在许多繁忙的城市交叉口。有趣的是,我们将人类对不可见关键点的标记的准确性与三焦点张量的预测进行了比较
http://www.cs.cmu.edu/~ILIM/projects/IM/CarFusion/cvpr2018/index.html
Learning Context Graph for Person Search
深卷积神经网络在人的再识别方面取得了很大的进展。然而,以往的方法大多集中在学习个体的外观特征嵌入,在不同的光照、较大的姿态变化和遮挡情况下,模型很难处理。在这项工作中,我们进一步考虑使用上下文信息进行人员搜索。对于探测图库对,我们首先提出了一个上下文实例扩展模块,该模块使用相对注意模块来搜索和过滤场景中有用的上下文信息。我们还构建了一个图学习框架,有效地利用上下文对更新目标相似度。这两个模块建立在联合检测和实例特征学习框架的基础上,提高了学习特征的区分性。该框架在两个广泛使用的个人搜索数据集上实现了最新的性能。
https://github.com/sjtuzq/person_search_gcn
99
Graphonomy: Universal Human Parsing via Graph Transfer Learning (CVPR2019)
先前高度优化的人工解析模型往往适合特定领域中的每个数据集,或者具有不同的标签粒度,如果不进行大量的重新训练,很难适应其他人工解析任务。本文旨在通过统一来自不同领域或不同粒度级别的标签注释,学习一个能够满足各种人类解析需求的通用人类解析模型。这就带来了许多基本的学习挑战,例如在不同的标签粒度之间发现潜在的语义结构,跨不同的图像域执行适当的转移学习,以及识别和利用相关任务中的标签冗余。为了解决这些问题,我们提出了一种新的通用的人类句法分析代理Graphonomy,它在传统的句法分析网络的基础上结合了层次图转移学习,对底层的标签语义结构进行编码并传播相关的语义信息。特别地,图学首先通过图内推理在一个数据集中的标签之间学习和传播紧凑的高级图表示,然后通过图间传输在多个数据集中传输语义信息。分析和编码不同数据集之间的各种图形传输依赖关系(如相似性、语言知识),以增强图形传输能力。通过对每个特定任务提取通用语义图表示,可以在一个系统中预测所有层次的解析标签,而不会增加复杂性。实验结果表明,Graphonomy在三个人类分析基准上都能有效地达到最新的结果,并且具有良好的通用人类分析性能。
https://github.com/Gaoyiminggithub/Graphonomy
98
Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration
我们的目标是生成一个策略,以便在给定域中仅给出任务的一个视频演示的情况下完成一个不可见的任务。我们假设,要成功地从单个视频演示推广到看不见的复杂任务,必须将任务的组合结构显式地合并到模型中。为此,我们提出了神经任务图(NTG)网络,它使用共轭任务图作为中间表示,将视频演示和导出的策略模块化。实验表明,NTG在两个复杂任务上实现了任务间的泛化:bulletpysics中的块叠加和AI2-THOR中的对象收集。NTG通过可视化输入提高了数据效率,并且在不需要密集的分层监控的情况下实现了强泛化。我们进一步表明,当应用于实际数据时,类似的性能趋势仍然有效。结果表明,NTG可以有效地预测JIGSAWS手术数据集上的任务结构,并将其推广到不可见的任务。
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition
(CVPR2019)
在基于骨架的动作识别中,将人体骨架建模为时空图形的图形卷积网络(GCNs)取得了显著的性能。然而,在现有的基于GCN的方法中,图形的拓扑被手动设置,并且它被固定在所有层和输入样本上。这对于层次GCN和动作识别任务中的不同样本可能不是最优的。此外,骨架数据的二阶信息(骨骼的长度和方向),在现有的方法中很少被研究,这对于动作识别来说更具信息性和判别性。在这项工作中,我们提出了一个新的两流自适应图卷积网络(2s-AGCN)用于基于骨架的动作识别。在我们的模型中,图的拓扑可以由BP算法以端到端的方式统一地或单独地学习。该数据驱动方法增加了图形构造模型的灵活性,并带来了更多的通用性,以适应各种数据样本。此外,本文还提出了一种同时对一阶和二阶信息建模的双流框架,显著提高了识别精度。在NTU-RGBD和KineticsKeleton两个大型数据集上进行的大量实验表明,我们的模型的性能超过了最新水平,具有显著的优势。
https://github.com/lshiwjx/2s-AGCN
154
Graph Convolutional Tracking
近年来,暹罗网络的跟踪取得了良好的效果。然而,现有的暹罗方法大多没有充分利用时空背景下的目标外观造型。事实上,时空信息可以提供多种特征来增强目标的表现力,而上下文信息对于目标定位的在线自适应具有重要意义。为了综合利用历史目标样本的时空结构,充分利用背景信息,本文提出了一种用于高性能视觉跟踪的图卷积跟踪方法。具体地说,GCT将两种类型的图卷积网络(GCNs)合并到一个用于目标外观建模的暹罗框架中。在这里,我们采用时空GCN对历史目标样本的结构化表示进行建模。此外,文中还设计了一个上下文GCN,利用当前帧的上下文来学习目标定位的自适应特征。对4个具有挑战性的基准测试的广泛结果表明,我们的GCT方法在每秒运行约50帧的情况下,相对于最先进的跟踪器表现良好。
Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition
利用骨骼数据进行动作识别是近年来计算机视觉领域的研究热点。以往的研究大多基于固定骨架图,只捕捉关节之间的局部物理依赖关系,可能会遗漏隐含的关节相关性。为了捕获更丰富的依赖项,我们引入了一种编码器-解码器结构,称为A-link推理模块,直接从动作中捕获动作特定的潜在依赖项,即动作链接。我们还扩展现有的骨架图来表示更高阶的依赖关系,即结构链接。将这两类链路组合成一个广义骨架图,进一步提出了动作结构图卷积网络(AS-GCN),该网络将动作结构图卷积和时间卷积作为基本的构造块,学习动作识别的时空特征。在识别头的同时增加了一个未来姿势预测头,通过自我监督帮助捕捉更详细的动作模式。我们使用两个骨架数据集NTURGB+D和动力学来验证AS-GCN在动作识别中的有效性。与最新方法相比,所提出的AS-GCN取得了一致的大改进。作为一种副产品,As-GCN在未来的位姿预测中也显示出了良好的效果。我们的代码在
https://github.com/limaosen0/AS-GCN
103
Context-Aware Visual Compatibility Prediction
我们如何确定两件或两件以上的服装是否兼容或具有视觉吸引力?部分原因在于对视觉美学的理解,并受到社会态度、时间和地点所形成的个人偏好的影响。在这项工作中,我们提出了一种方法,根据两个项目的视觉特征以及它们的上下文来预测它们之间的兼容性。我们将上下文定义为已知与这些项中的每一项兼容的产品。我们的模型与其他度量学习方法形成对比,这些方法仅依赖于项特征之间的成对比较。我们使用图形神经网络来解决兼容性预测问题,该网络学习根据上下文生成产品嵌入。我们提出了两个预测任务(填补空白和服装兼容性)在两个时尚数据集Pulvoor和Saturn Gen上的结果,以及在Amazon DataSet的一个子集上;当使用上下文信息时,我们实现了最先进的结果,并且显示了随着更多上下文的使用,测试性能如何提高。
https://github.com/gcucurull/visual-compatibility
22
Graph Attention Convolution for Point Cloud Semantic Segmentation
标准卷积由于其特征的各向同性,在点云的语义分割中受到固有的限制。它忽略了目标的结构,导致分割结果中的目标轮廓差,虚假区域小。本文提出了一种新的图形注意卷积(GAC),它的核心可以动态地雕刻成特定的形状以适应对象的结构。具体地说,通过给不同的相邻点分配适当的注意权值,GAC被设计成根据动态学习的特征有选择地关注其中最相关的部分。卷积核的形状由注意权的学习分布决定。GAC虽然简单,但可以捕获点云的结构化特征进行细粒度分割,避免对象间的特征污染。在理论上,我们对GAC的表现能力进行了深入的分析,以展示它如何了解点云的特征。在实验上,我们对提出的GAC在挑战性的室内和室外数据集上进行了评估,并在两种情况下都取得了最新的结果。
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
基于骨骼的动作识别是一项重要的任务,它要求从给定的骨骼序列中充分了解人体动作的运动特征。最近的研究表明,探索骨骼序列的时空特征对这项任务至关重要。然而,如何有效地提取具有区分性的时空特征仍然是一个具有挑战性的问题。本文提出了一种新的基于骨架数据的注意增强图卷积LSTM网络(AGC-LSTM)。提出的AGC-LSTM不仅可以捕捉空间形态和时间动力学中的判别特征,而且可以探索时空域之间的共生关系。我们还提出了一种时态层次结构来增加顶层AGC-LSTM层的时态接受域,提高了高层语义表示的学习能力,显著降低了计算开销。此外,为了选择有区别的空间信息,采用注意机制来增强每个AGC-LSTM层中关键节点的信息。给出了两个数据集的实验结果:NTU-RGB+D数据集和西北UCLA数据集。比较结果表明了该方法的有效性,并且在两个数据集上都优于最新的方法。
Skeleton-Based Action Recognition with Directed Graph Neural Networks
骨架数据能够很好地适应动态环境和复杂背景,因此在动作识别中得到了广泛的应用。在现有的方法中,骨骼数据中的关节和骨骼信息都被证明对动作识别任务有很大帮助。然而,如何将这两种类型的数据结合起来,以便更好地利用关节和骨骼之间的关系,仍然是一个有待解决的问题。在这项工作中,我们根据人体关节和骨骼之间的运动相关性,将骨骼数据表示为有向无环图(DAG)。设计了一种新的有向图神经网络,用于提取关节、骨骼及其相互关系的信息,并根据提取的特征进行预测。另外,为了更好地适应动作识别任务,在训练过程的基础上,对图的拓扑结构进行了自适应,使其得到了显著的改进。在双流框架下,利用骨架序列的运动信息,结合空间信息,进一步提高性能。我们的最终模型在两个大型数据集NTU-RGBD和骨骼动力学上进行了测试,在这两个数据集上都超过了最新的性能。
https://github.com/kenziyuliu/DGNN-PyTorch
(非官方)
70
Deep Compositional Question Answering with Neural Module Networks
视觉问答在本质上是一种构图性的问题,比如狗在哪里?分享子结构的问题,比如狗是什么颜色的?那猫呢?本文试图同时挖掘深层网络的表征能力和问题的构成语言结构。我们描述了一个构造和学习神经模块网络的过程,它将联合训练的神经模块集合组成深层网络进行问答。我们的方法将问题分解为它们的语言子结构,并使用这些结构动态地实例化模块化网络(具有可重用的组件,用于识别狗、分类颜色等)。由此产生的复合网络是联合训练的。我们对两个具有挑战性的可视化问答数据集进行了评估,在VQA自然图像数据集和一个新的抽象形状复杂问题数据集上都取得了最新的结果。
GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects
网格模型是一种很有前途的三维物体结构编码方法。当前的网格重建系统通过一系列的图卷积来预测一个预定图的均匀分布的顶点位置,这会导致性能或分辨率的降低。在本文中,我们认为几何对象的图形表示允许额外的结构,这应该用于增强重建。因此,我们通过引入(1)保留顶点信息的图卷积更新;(2)允许细节出现的自适应分裂启发式;以及(3)在由顶点定义的局部曲面上同时操作的训练目标,提出了一个适当地利用图形编码对象的几何结构优点的系统以及由网格定义的全局结构。我们提出的方法是基于ShapeNet数据集的三维物体重建任务进行评估的,在该任务中,我们在视觉和数值上展示了最先进的性能,同时通过生成自适应网格具有更小的空间要求
https://github.com/EdwardSmith1884/GEOMetrics
76
Graph Convolutional Gaussian Processes
我们提出了一种新的贝叶斯非参数方法来学习非欧氏域上的平移不变关系。所得到的图卷积高斯过程可以应用于机器学习中的问题,对于这些问题,输入观测值是一般图上具有区域的函数。与卷积神经网络一样,这些模型的结构允许高维输入,同时保持可表达性。我们提出的图形卷积高斯过程的图像和三角网格的应用,展示了它们的通用性和有效性,与现有的方法相比,尽管是相对简单的模型。
LatentGNN: Learning Efficient Non-local Relations for Visual Recognition
在特征表示中捕获长距离依赖关系对于许多视觉识别任务至关重要。尽管最近深卷积网络取得了一些成功,但是在视觉特征之间建立非局部上下文关系模型仍然是一个挑战。一种很有前途的策略是利用全连通图神经网络(GNN)对特征上下文进行建模,该网络利用估计的非局部上下文表示对传统卷积特征进行扩展。然而,大多数基于GNN的方法都需要计算一个稠密的图亲和矩阵,因此很难扩展到处理复杂的现实世界的视觉问题。在这项工作中,我们提出了一种有效的,但灵活的非局部关系表示基于一类新的图形神经网络。我们的关键思想是引入一个潜在的空间来减少图的复杂度,这使得我们可以使用图的亲和度矩阵的低秩表示,并在计算中实现线性复杂度。对三种主要的视觉识别任务进行了大量的实验评估,结果表明,该方法在保持较低计算成本的同时,在较大的幅度上优于已有的方法。为了便于将来的研究,可以使用以下代码:https://github.com/latentgnn/LatentGNN-V1-PyTorch
42
-----------------------------------------------------------------------------------------------------------------------------------
AttKGCN: Attribute Knowledge Graph Convolutional Network for Person Re-identification
人图像的鉴别特征表示是人的再鉴别(re ID)任务的重要组成部分。近年来,属性被证明有助于指导学习更具区分性的Re-ID特征表示。由于属性通常在人的图像中同时出现,因此需要对属性依赖性进行建模,以改进属性预测,从而得到Re-ID结果。本文提出了一种新的属性知识图(AttKG)对这些属性依赖关系进行建模,并提出了一种新的属性知识图卷积网络(AttKGCN)来解决Re ID问题。AttKGCN将属性预测和Re-ID学习集成在一个统一的端到端框架中,可以分别提高它们的性能。AttKGCN首先构建一个有向属性KG,它的节点表示属性,边编码不同属性的共现关系。然后,AttKGCN学习一组相互依赖的属性分类器,这些分类器与人的视觉描述符相结合,用于属性预测。最后,AttKGCN将属性描述和深度视觉表示结合起来,构造了一个更具区分性的特征表示。在多个基准数据集上的大量实验证明了AttKGCN在属性预测和Re-ID任务上的有效性。
Learning Cross-modal Context Graph for Visual Grounding
视觉接地是许多视觉语言任务中普遍存在的一个构建块,但由于接地实体的视觉和语言特征的巨大变化、强烈的语境效应以及由此产生的语义模糊性,视觉接地仍然具有挑战性。以往的研究主要集中在学习具有有限语境信息的单个短语的表达。针对其局限性,本文提出了一种语言引导图表示方法,以捕捉接地实体的全局上下文及其关系,并针对多短语视觉接地任务提出了一种跨模式图匹配策略。特别地,我们引入了一个模块化的图神经网络,通过消息传播分别计算短语和对象建议的上下文感知表示,然后使用基于图的匹配模块生成接地短语的全局一致定位。我们以两阶段策略共同训练整个图形神经网络,并在Flickr30K实体基准上对其进行评估。大量实验表明,我们的方法在很大程度上优于现有技术,证明了我们的基础框架的有效性。代码位于
https://github.com/youngfly11/LCMCG-PyTorch
(AAAI2020)
Heterogeneous Graph Learning for Visual Commonsense Reasoning
视觉常识推理任务旨在引导研究领域解决认知层面的推理,具有预测正确答案的能力,同时提供令人信服的推理路径,从而产生三个子任务,即Q->A,QA->R和Q->AR。这对视觉和语言领域之间的语义对齐以及知识推理产生有说服力的推理路径提出了巨大挑战。现有的工作要么求助于强大的端到端网络,要么不能产生可解释的推理路径,要么仅仅探索视觉对象(同构图)的内部关系,而忽略了视觉概念和语言词之间的跨域语义对齐。本文提出了一种新的异构图学习(HGL)框架,将图内推理和图间推理无缝地结合起来,以架起视觉和语言领域的桥梁。我们的HGL由一个原始的异类图回答模块(VAHG)和一个双重的异类图回答模块(QAHG)组成,用于交互式地优化语义一致性的推理路径。此外,我们的HGL集成了一个上下文投票模块,以利用远程可视上下文进行更好的全局推理。在大规模的视觉常识推理基准上的实验表明,我们提出的模块在三个任务上都表现出了优越的性能(在Q->A上提高了5%的准确性,在QA->R上提高了3.5%,在Q->AR上提高了5.8%)
https://github.com/yuweijiang/HGL-pytorch
Fully-Automatic Semantic Segmentation for Food Intake Tracking in Long-Term Care Homes
Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison
基于视觉的手语识别旨在帮助听障人士与他人进行交流。然而,大多数现有手语数据集仅限于少量的单词。由于词汇量有限,从这些数据集中学习到的模型无法在实践中应用。本文介绍了一种新的大规模字级美国手语(WLASL)视频数据集,由100多个签名者完成,包含2000多个字。该数据集将向研究界公开。据我们所知,它是迄今为止最大的公共ASL数据集,有助于字级符号识别的研究。
基于这个新的大规模数据集,我们可以尝试几种用于字级符号识别的深度学习方法,并评估它们在大规模场景中的性能。具体来说,我们实现并比较了两种不同的模型,即(i)基于整体视觉外观的方法和(ii)基于二维人体姿势的方法。这两个模型都是有价值的基线,将有利于社区进行方法基准测试。此外,我们还提出了一种新的基于姿态的时间图卷积网络(pose-TGCN),它可以同时对人体姿态轨迹的空间和时间依赖性进行建模,进一步提高了基于姿态的方法的性能。我们的结果表明,基于姿势和基于外观的模型在2000个单词/gloss上达到了66%的可比性能,显示了我们数据集的有效性和挑战性。我们将使大规模的数据集,以及我们的基线深度模型,免费提供在线。
Facial Expression Restoration Based on Improved Graph Convolutional Networks
当人脸图像分辨率较低或部分遮挡时,野外表情分析具有挑战性。针对不同表情下不同人脸局部区域之间的相关性,提出了一种基于生成性对抗网络的人脸表情恢复方法,该方法将改进的图形卷积网络(IGCN)和区域关系建模块(RRMB)相结合。与传统的以矢量为输入特征的图卷积网络不同,IGCN可以使用面片的张量作为输入。最好保留面片的结构信息。提出的RRMB旨在解决面部生成任务,包括修复和面部动作单元检测的超分辨率,旨在恢复面部表情作为基本真实。在BP4D和DISFA基准上进行的大量实验通过定量和定性评估证明了我们提出的方法的有效性
Human Action Recognition with Multi-Laplacian Graph Convolutional Networks
卷积神经网络在不同的模式识别问题上取得了巨大的成功。这些学习模型基本上是为了处理图像等矢量数据而设计的,但它们对非矢量和半结构化数据(即具有可变大小的图形、拓扑结构等)的扩展仍然是一个重大挑战,尽管目前正在出现一些有趣的解决方案。
本文介绍了一种新的谱多重拉普拉斯图卷积网络MLGCN。这种方法的主要贡献在于一种新的设计原则,它将图拉普拉斯学习为其他基本拉普拉斯的凸组合,每个拉普拉斯都专用于输入图的特定拓扑。我们还引入了一种新的图上池算子,它分两步进行:上下文相关的节点扩展,然后是全局平均池;这两步过程的优点在于它能够在实现置换不变性的同时保持节点的区分能力。在SBU和UCF-101数据集上进行了实验,验证了该方法对具有挑战性的动作识别任务的有效性。
https://www.groundai.com/project/human-action-recognition-with-multi-laplacian-graph-convolutional-networks/1
Using Image Priors to Improve Scene Understanding
语义分割算法能够在多个摄像机视点上对物体进行强有力的分割,对于保证导航和自主驾驶等新兴应用的安全性至关重要。现有的算法单独处理每个图像,但自主车辆经常重访相同的位置或保持信息从眼前的过去。我们提出了一种简单而有效的方法来利用这些图像先验知识来改进序列驱动数据集中图像的语义分割。我们研究了几种融合这些时间场景先验信息的方法,并介绍了一种能够学习如何传输这些信息的先验融合网络。对于动态类,先验融合模型比非先验基线的精度从69.1%提高到73.3%,对于静态类,从88.2%提高到89.1%。与FCN-8等模型相比,我们的方法在参数减少5倍的情况下达到了同样的精度。我们使用了简单的编解码骨干网,但是这种通用的先验融合方法可以应用到更复杂的语义分割骨干网中。我们还讨论了如何利用场景图中场景的结构化表示作为先验知识来进一步提高场景理解能力。
wMAN: Weakly-supervised Moment Alignment Network for Text-based Video Segment Retrieval
给定一个视频和一个句子,弱监督视频矩检索的目标是在训练过程中定位由句子描述的视频片段,而不需要获取时间注释。相反,一个模型必须学习如何识别只有视频句子对时的正确片段(即时刻)。因此,一个内在的挑战是自动推断视觉和语言表达之间的潜在对应关系。为了便于这种对齐,我们提出了弱监督矩对齐网络(wMAN),它利用多层次的共同注意机制来学习更丰富的多模态表示。上述机制由一个逐帧交互模块和一个新的词条件视觉图(WCVG)组成。我们的方法还结合了位置编码的一个新应用,通常用于变压器,通过迭代消息传递来学习视觉语义表示,这些表示包含了它们在时间序列中相对位置的上下文信息。在DiDeMo和Charades-STA数据集上的综合实验证明了我们所学习的表示方法的有效性:我们的组合wMAN模型不仅在很大程度上优于最新的弱监督方法,而且在某些度量上也优于强监督的最新方法。
Visual Semantic Reasoning for Image-Text Matching
图像文本匹配一直是连接视觉和语言领域的研究热点。它仍然具有挑战性,因为当前的图像表示通常缺乏相应文本标题中的全局语义概念。为了解决这个问题,我们提出了一个简单的、可解释的推理模型来生成捕获关键对象和场景语义概念的可视化表示。具体来说,我们首先建立图像区域之间的连接,然后使用图卷积网络进行推理,以生成具有语义关系的特征。然后,我们提出使用门和记忆机制对这些关系增强的特征进行全局语义推理,选择判别信息,并逐步生成整个场景的表示。实验证明,该方法在MS-COCO和Flickr30K数据集上实现了一种新的图像文本匹配技术。它在图像检索和标题检索方面的性能分别比目前的最佳方法高出6.8%和4.8%(使用1K测试集调用@1)。在Flickr30K上,我们的模型将图像检索相对提高了12.6%,标题检索相对提高了5.8%(Recall@1)。我们的代码可以在https://github.com/KunpengLi1994/VSRN上找到。
https://github.com/KunpengLi1994/VSRN
80
Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid
Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework
摘要:随着深度学习算法的迅速发展,视频中的动作识别取得了许多重要的研究成果。动作识别中的一个问题零拍动作识别(ZSAR)最近引起了人们的广泛关注,它在没有任何正面例子的情况下对新的类别进行分类。动作识别的另一个困难是未经处理的数据可能会严重影响模型的性能。我们提出了一个带有预训练模型的复合双流框架。我们提出的框架包括一个分类器分支和一个复合特征分支。在两个分支中分别采用图网络模型,有效地提高了框架的特征提取和推理能力。在复合特征分支中,构建了一个三通道的自关注模型,对视频中的每一帧进行加权,并对关键帧给予更多的关注。每个自注意模型信道输出一组注意权重以聚焦于视频的特定方面,并且一组注意权重对应于一维向量。
Sentence Specified Dynamic Video Thumbnail Generation
随着互联网上视频的巨大增长,提供视频内容预览的视频缩略图对于影响用户的在线搜索体验越来越重要。传统的视频缩略图仅根据视频的视觉特性生成一次,然后按要求显示。因此,这样的视频缩略图,如果不考虑用户的搜索意图,就不能提供用户关心的视频内容的有意义的快照。本文定义了一个独特的新任务,即句子指定的动态视频缩略图生成,生成的缩略图不仅提供了原始视频内容的简明预览,而且与用户的搜索意图动态相关,语义对应于用户的查询语句。为了解决这一难题,我们提出了一种新的图形卷积视频缩略图指针(GTP)。具体地说,GTP利用句子指定的视频图卷积网络来建模句子-视频语义交互和与句子信息相结合的内部视频关系,在此基础上,引入时间条件指针网络,依次生成句子指定的视频缩略图。此外,我们基于ActivityNet标题为新任务添加了一个新的数据集,该数据集由10000多个视频句子对组成,每个视频句子对附有一个指定的视频缩略图。我们证明我们提出的GTP方法在所建立的数据集上优于几种基线方法,因此我们相信随着新数据集的发布,我们的初步结果将启发对句子指定的动态视频缩略图生成的进一步研究。
https://github.com/yytzsy/GTP
Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation
研究了由已知摄像机姿态的彩色图像进行三维网格表示时的形状生成问题。虽然许多以前的作品学习直接从先验知识中产生幻觉,但我们通过利用图形卷积网络的交叉视图信息来进一步提高形状质量。我们的模型没有建立从图像到三维形状的直接映射函数,而是学习预测一系列的变形以迭代地改进粗糙形状。在传统的多视图几何方法的启发下,我们的网络在初始网格顶点附近区域进行采样,并利用从多个输入图像中建立的感知特征统计来确定最佳变形。大量的实验表明,我们的模型产生了准确的三维形状,不仅从视觉上看,从输入的角度,似乎是合理的,而且很好地对齐任意的观点。借助于物理驱动的体系结构,我们的模型还表现出跨不同语义类别的泛化能力、输入图像的数量和网格初始化的质量。
StructureNet: Hierarchical Graph Networks for 3D Shape Generation
生成新颖、多样和真实的三维形状以及相关的零件语义和结构的能力对于许多需要高质量三维资产或大量真实训练数据的应用来说至关重要。实现这一目标的一个关键挑战是如何适应不同的形状,包括零件的连续变形以及添加、移除或修改形状成分和组成结构的结构或离散变化。这种对象结构通常可以组织成一个由组成对象部分和关系组成的层次结构,表示为n元图的层次结构。我们介绍了一种层次图网络StructureNet,它(i)可以直接编码表示为n元图的形状;(ii)可以在大而复杂的形状族上进行健壮的训练;以及(iii)用于生成大量多样的真实的结构化形状几何体。从技术上讲,我们是通过借鉴图形神经网络的最新进展来实现这一点的,提出了一种n元图形的顺序不变编码,同时考虑了网络训练中的部分几何和部分间关系。我们广泛地评估了不同形状族的学习潜在空间的质量,并显示出相对于基线和竞争方法的显著优势。学习到的潜在空间能够实现多种结构感知的几何处理应用,包括形状生成和插值、形状编辑或直接从未注释图像、点云或部分扫描中发现形状结构。
PH-GCN: Person Re-identification with Part-based Hierarchical Graph Convolutional Network
Deep Graph-Convolutional Image Denoising
Interactive Image Generation Using Scene Graphs
近年来,基于场景的文本描述在图像生成领域出现了一些令人兴奋的发展。这些方法主要集中于从静态文本描述生成图像,并且仅限于在单个过程中生成图像。它们无法基于增量相加的文本描述(更直观和类似于我们描述图像的方式)交互式地生成图像。提出了一种基于场景描述图序列(场景图)的图像增量生成方法。我们提出了一种递归的网络结构,它保留了先前步骤中生成的图像内容,并根据新提供的场景信息修改累积图像。该模型利用图形卷积网络(GCN)来迎合可变大小的场景图和生成的对抗性图像转换网络来生成真实的多目标图像,而无需在训练过程中进行任何中间监控。
PasteGAN: A Semi-Parametric Method to Generate Image from Scene Graph
尽管在基于结构化(场景图)或自由形式(句子)描述的高质量图像生成方面取得了一些令人振奋的进展,但大多数都只保证了图像层次的语义一致性,生成的图像与描述的语义相匹配。然而,它仍然缺乏对图像合成的更可控的研究,比如精细地操纵每个物体的视觉外观。因此,为了生成具有首选对象和丰富交互作用的图像,我们提出了一种半参数方法,称为PasteGAN,用于从场景图生成图像,其中对象的空间排列及其成对关系由场景图定义,对象的外观由给定对象决定作物。为了增强输出中对象的交互作用,我们设计了一个裁剪优化网络,将对象及其关系嵌入到一个地图中。多重损失协同工作,以确保生成的图像高度尊重作物和符合场景图,同时保持良好的图像质量。如果没有提供裁剪,还建议使用裁剪选择器通过对场景图中对象周围的交互进行编码,从外部对象库中选择最兼容的裁剪。通过对视觉基因组和COCO数据的分析,我们提出的方法在初始得分和多样性得分上都明显优于SOTA方法,并且有很大的优势。大量的实验也证明了我们的方法能够生成具有给定对象的复杂多样的图像。
Edge-labeling Graph Neural Network for Few-shot Learning
Semantic Relationships Guided Representation Learning for Facial Action Unit Recognition
人脸动作单元(AU)识别是人脸表情分析的一项重要任务,在人工智能和计算机视觉领域引起了广泛的关注。现有的工作集中于设计或学习复杂的区域特征表示,或深入到各种类型的AU关系建模。尽管有不同程度的进步,但对于现有的处理复杂情况的方法仍然费力。本文研究了如何将AUs之间的语义关系传播集成到一个深层神经网络框架中,以增强面部区域的特征表示,并提出了一个AU语义关系嵌入表示学习(SRERL)框架。具体来说,通过分析各种表情中AUs的共生和互斥,我们以结构化知识图的形式组织面部AUs,并将门控图神经网络(GGNN)集成到多尺度CNN框架中,通过图传播节点信息,生成增强的AU表示。由于所学习的特征既包含了外观特征,又包含了AU关系推理,因此该模型具有更强的鲁棒性,能够处理更具挑战性的情况,如光照变化和部分遮挡。在两个公共基准上的大量实验表明,我们的方法优于以前的工作,并且达到了最先进的性能。
3D Dense Face Alignment via Graph Convolution Networks
Relational Action Forecasting
本文主要研究视频中的多人动作预测。更准确地说,给定H个先前帧的历史,目标是检测参与者并预测他们在下一个T帧中的未来动作。我们的方法以更快的R-CNN作为节点,通过构造一个递归图,联合建模不同参与者之间的时空交互。我们的方法学习在不需要明确监督的情况下选择判别关系的子集,从而使我们能够处理具有挑战性的视觉数据。我们将我们的模型称为判别关系递归网络(DRRN)。在AVA上对动作预测的评估表明,与简单的基线相比,我们提出的方法是有效的。此外,我们在J-HMDB上的早期动作分类任务的性能显著提高,从之前的48%提高到60%。
Context-Aware Embeddings for Automatic Art Analysis
自动艺术分析旨在利用计算机视觉和机器学习技术,从一组图像中分类和检索艺术表现。在这项工作中,我们建议用上下文艺术信息增强神经网络的视觉表现力。尽管视觉表现能够捕捉关于艺术品内容和风格的信息,但我们提出的上下文感知嵌入方法额外地编码了不同艺术属性之间的关系,如作者、流派或历史时期。我们设计了两种在自动艺术分析中使用上下文的不同方法。第一种方法是通过多任务学习模型获得上下文数据,在该模型中,多个属性被训练在一起以发现元素之间的视觉关系。在第二种方法中,上下文是通过特定于艺术的知识图获得的,该知识图编码了艺术属性之间的关系。在作者识别、类型分类或跨模态检索等几个艺术分析问题中,我们对两个模型的详尽评估表明,当使用上下文感知嵌入时,艺术分类和检索的性能分别提高了7.3%和37.24%。
Context-aware Human Motion Prediction
在机器人学和计算机视觉的许多应用中,根据过去的观察序列来预测人类运动的问题是核心。当前的最新技术将这个问题描述为一个顺序到顺序的任务,在这个任务中,3D骨骼的历史数据为预测未来运动的递归神经网络(RNN)提供数据,通常是1到2秒的顺序。然而,迄今为止已经被排除的一个方面是,人类的运动本质上是由与环境中的物体和/或其他人类的相互作用驱动的。在本文中,我们使用一个新的上下文感知运动预测架构来探索这个场景。我们使用一个语义图模型,其中节点参数化场景中的人和物体,以及它们相互作用的边。这些相互作用是通过一个图形注意层迭代学习的,由过去的观察结果提供信息,现在包括物体和人体的运动。一旦这个语义图被学习,我们就把它注入到一个标准的RNN中,以预测人/s和对象/s的未来移动。我们考虑我们架构的两个变体,或者在将来更新它们时冻结上下文交互。对“全身人体运动数据库”的全面评估表明,在这两种情况下,我们的上下文感知网络明显优于不考虑上下文信息的基线。
Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection
Spatial-Temporal Graph Convolutional Networks for Sign Language Recognition
用于手语识别的时空图卷积网络