CVPR2020 Oral
End-to-End Optimization of Scene Layout(CVPR 2020 Oral)
提出了一种基于场景图的端到端变分生成场景布局综合模型。与无条件场景布局生成不同,我们使用场景图作为抽象但通用的表示来指导满足场景图中包含的关系的各种场景布局的合成。这使得对合成过程的控制更加灵活,允许各种形式的输入,例如从句子中提取的场景布局或从单色图像中推断的场景布局。使用我们的条件布局合成器,我们可以生成共享输入示例相同结构的各种布局。除了这种条件生成设计之外,我们还集成了一个可微分渲染模块,该模块仅使用场景的二维投影来实现布局优化。在给定深度和语义映射的情况下,可差分呈现模块可以优化合成布局,以满足按合成方式分析的给定输入。实验表明,该模型在条件场景合成中具有较高的精度和多样性,并允许从各种输入形式生成基于范例的场景。
Robust Learning Through Cross-Task Consistency(CVPR 2020 Oral)
视觉感知需要解决一系列的任务,例如目标检测、深度估计等。对同一幅图像中的多个任务所做的预测不是独立的,因此期望是一致的。我们提出了一个广泛适用的和完全计算的方法来增强跨任务一致性的学习。该公式基于任意任务图上的推理路径不变性。我们观察到,学习与跨任务一致性导致更准确的预测和更好的推广外的分布输入。该框架还引入了一种基于测量系统内在一致性的信息量,称为一致性能量。一致性能量与监督误差有很好的相关性(r=0.67),因此它既可以作为无监督置信度,也可以用于检测分布外输入(ROC-AUC=0.95)。评估是在多个数据集上进行的,包括Taskonomy、Replica、CocoDoom和ApolloScape,它们将跨任务一致性与各种基线(包括传统的多任务学习、周期一致性和分析一致性)进行比较。
Graph-Structured Referring Expression Reasoning in The Wild(CVPR 2020 Oral)
接地指代表达的目的是在图像中定位自然语言表达所指代的对象。指称表达的语言结构提供了对视觉内容进行推理的布局,而将图像和指称表达对齐并共同理解往往是至关重要的。本文提出了一种场景图引导的模块化网络(SGMN),它在语义图和带有神经模块的场景图的语言结构的指导下进行推理。特别地,我们将图像建模为一个结构化的语义图,并将其解析为一个语言场景图。语言场景图不仅对表达的语言结构进行解码,而且与图像语义图具有一致的表示。除了探索基于引用表达式的结构化解决方案之外,我们还提出了Ref-Reasoning,一个用于结构化引用表达式推理的大规模真实数据集。我们使用不同的表达模板和函数程序自动生成图像场景图上的引用表达式。这个数据集配备了真实世界的视觉内容以及具有不同推理布局的语义丰富的表达式。实验结果表明,我们的SGMN不仅在新的Ref推理数据集上显著优于现有的最新算法,而且在常用的基准数据集上也优于最新的结构化方法。它还可以为推理提供可解释的视觉证据。数据和代码可在
GPS-Net: Graph Property Sensing Network for Scene Graph Generation(CVPR 2020 Oral)
场景图生成(SGG)的目的是检测图像中的对象及其成对关系。场景图有三个关键性质,即边缘方向信息、节点间优先级的差异和关系的长尾分布。因此,本文提出了一种图属性传感网络(GPS网),充分挖掘了SGG的这三个特性。首先,我们提出一个新的讯息传递模组,利用特定节点的背景资讯来扩充节点特徵,并透过三线性模型来编码边缘方向资讯。其次,我们引入节点优先级敏感损失来反映训练过程中节点之间优先级的差异。这是通过设计一个映射函数来实现的,该映射函数可以调整焦损中的聚焦参数。第三,由于关系的频率受到长尾分布问题的影响,我们通过首先软化分布,然后根据每个主客体对的视觉外观对分布进行调整来缓解这个问题。系统实验证明了该方法的有效性。此外,GPS网在VG、OI和VRD三个流行的数据库上实现了最先进的性能,在不同的设置和度量条件下获得了显著的收益。代码和模型可在
CPR-GCN: Conditional Partial-Residual Graph Convolutional Network in Automated Anatomical Labeling of Coronary Arteries(CVPR 2020 Oral)
自动解剖标记在冠状动脉疾病诊断过程中起着至关重要的作用。这个问题的主要挑战是人体解剖学遗传的巨大个体变异性。现有的方法通常依赖于冠状动脉树的位置信息和拓扑结构的先验知识,当主干混淆时,可能导致性能不理想。基于图神经网络在结构化数据中的广泛应用,本文提出了一种条件部分残差图卷积网络(CPR-GCN),该网络同时考虑了位置和CT图像,因为CT图像包含了丰富的分支大小和跨越方向等信息。CPR-GCN包括两大部分,一部分残余GCN和一个条件提取器。条件抽取器是一个包含三维CNN和LSTM的混合模型,它可以沿着分支提取三维空间图像特征。在技术方面,部分残差GCN以分支的位置特征为基础,以三维空间图像特征为条件,预测每个分支的标签。在数学方面,我们的方法将偏微分方程(PDE)引入到图形建模中。从临床收集511名受试者的数据集,由两位专家采用两阶段注释过程进行注释。根据五重交叉验证,我们的CPR-GCN的平均召回率为95.8%,平均准确率为95.4%,平均f1为0.955,优于最先进的方法。
Learning to Segment 3D Point Clouds in 2D Image Space(CVPR 2020 Oral)
与使用自定义卷积算子捕捉三维点云局部模式的文献不同,本文研究如何有效地将这些点云投影到二维图像空间中,使传统的二维卷积神经网络(CNNs)如U-Net能够应用于图像分割。为此,我们从图的绘制出发,将其转化为一个整数规划问题来学习每个点云的拓扑保持图到网格的映射。为了提高实际计算速度,我们进一步提出了一种新的分层近似算法。借助于Delaunay三角剖分从点云构造图和多尺度U网进行分割,我们分别展示了ShapeNet和PartNet的最新性能,与文献相比有了显著的改进。代码位于
Weakly Supervised Visual Semantic Parsing(CVPR 2020 Oral)
场景图生成(SGG)的目的是从图像中提取实体、谓词及其语义结构,实现对视觉内容的深入理解,具有视觉推理、图像检索等多种应用。然而,现有的SGG方法需要数百万个人工标注的边界框来进行训练,并且计算效率很低,因为它们会穷尽地处理所有成对的对象建议来检测谓词。在本文中,我们首先提出了一个广义的SGG公式,即视觉语义分析,它将实体识别和谓词识别分离开来,实现了次二次性能。然后,我们提出了一个基于动态的、基于注意的、二部式消息传递框架的可视化语义分析网络VSPNet,该框架通过迭代过程联合推断出图的节点和边。此外,我们提出了第一个基于图的弱监督学习框架,该框架基于一种新的图对齐算法,使得训练不需要边界框标注。通过大量的实验,我们发现VSPNet的性能明显优于弱监督基线,接近完全监督的性能,同时速度快了好几倍。我们公开发布了我们方法的源代码。
Deep Snake for Real-Time Instance Segmentation(CVPR 2020 Oral)
提出了一种基于轮廓的实时实例分割方法deep-snake。与最近一些直接从图像中回归目标边界点坐标的方法不同,deep snake使用神经网络迭代变形初始轮廓以匹配目标边界,它采用基于学习的方法实现了snake算法的经典思想。对于轮廓上的结构化特征学习,我们提出在deepsnake中使用循环卷积,与一般的图卷积相比,它更好地利用了轮廓的循环图结构。基于deep-snake,提出了一种两阶段流水线分割方法:初始轮廓建议和轮廓变形,用于处理目标定位中的错误。实验结果表明,该方法在Cityscapes、KINS、SBD和COCO数据集上均取得了较好的性能,同时对实时应用具有较高的效率,其速度为32.3fps×1080Ti GPU上有512个图像。代码可在
Learning a Neural Solver for Multiple Object Tracking(CVPR 2020 Oral)
图提供了一种自然的方式来制定多目标跟踪(MOT)内的跟踪检测范式。然而,它们也给学习方法带来了一个重大挑战,因为定义一个可以在这样的\textit{structureddomain}上操作的模型并非易事。因此,大多数基于学习的工作都致力于为MOT学习更好的特性,然后将这些特性与成熟的优化框架结合使用。在这项工作中,我们利用MOT的经典网络流公式来定义一个基于消息传递网络(MPN)的完全可微框架。通过直接在图域上操作,我们的方法可以对整个检测集进行全局推理并预测最终解。因此,我们证明了MOT中的学习不需要局限于特征提取,也可以应用于数据关联步骤。我们展示了MOTA和IDF1在三个公开的基准上的显著改进。我们的代码在
SuperGlue: Learning Feature Matching with Graph Neural Networks(CVPR 2020 Oral)
本文介绍了SuperGlue,一种通过联合查找对应点和剔除不匹配点来匹配两组局部特征的神经网络。通过求解一个可微最优运输问题来估计作业量,其费用由一个图神经网络来预测。我们引入了一种灵活的基于注意的上下文聚合机制,使得SuperGlue能够联合推理底层的3D场景和特征分配。与传统的、手工设计的启发式算法相比,我们的技术通过对图像的端到端训练来学习三维世界的几何变换和规则。在具有挑战性的室内外环境中,SuperGlue在姿态估计方面优于其他学习方法,并取得了最新成果。该方法在现代GPU上进行实时匹配,可以很容易地集成到现代SfM或SLAM系统中。代码和训练过的重量在
Dynamic Graph Message Passing Networks(CVPR 2020 Oral)
建模远程依赖关系对于复杂场景理解任务,如语义分割和目标检测是至关重要的。尽管CNN在许多计算机视觉任务中都表现出色,但由于CNN通常由本地内核层组成,因此在捕获远程结构化关系方面仍然受到限制。完全连通图有利于这种建模,但是它的计算开销是令人望而却步的。提出了一种基于消息传递神经网络框架的动态图消息传递网络,与建模完全连通图相比,大大降低了计算复杂度。这是通过自适应地采样图中的节点,并根据输入来实现消息传递。然后,基于采样节点,动态预测节点相关滤波器权重和关联矩阵,以实现信息的传播。使用该模型,我们在三个不同任务和骨干架构上显示了在强大、最先进基线方面的显著改进。我们的方法在使用较少浮点运算和参数的同时,也优于完全连通图。
Reasoning Visual Dialogs with Structural and Partial Observations(CVPR 2020 Oral)
我们提出了一个新的模型来处理显示复杂对话结构的可视对话任务。为了在当前问题和对话历史的基础上获得合理的答案,对话实体之间的潜在语义依赖是必不可少的。在本文中,我们将此任务显式地形式化为一个带有部分观察节点和未知图结构(对话框中的关系)的图形模型中的推理。给定的对话框实体被视为观察到的节点。给定问题的答案由缺少值的节点表示。我们首先引入一个期望最大化算法来推断潜在的对话结构和缺少的节点值(期望的答案)。在此基础上,我们提出一个可微图神经网络(GNN)的解决方案来逼近这个过程。在VisDial和VisDial-Q数据集上的实验结果表明,该模型优于比较方法。此外,我们的方法可以推断出对话的基本结构,以便更好地进行对话推理。
DEPARA: Deep Attribution Graph for Deep Knowledge Transferability
探索异质任务预训练深度神经网络(PR-DNNs)中编码的知识之间的内在联系,揭示了它们之间的相互传递性,从而使知识从一个任务传递到另一个任务,从而减少后者的训练工作量。在本文中,我们提出了深层属性图(DEPARA)来研究从PR-DNNs学习到的知识的可转移性。在DEPARA中,节点对应于输入,并由其相对于PR-DNN的输出的向量化属性映射来表示。边缘表示输入之间的相关性,并通过从PR-DNN中提取的特征的相似性来度量。两个PR-dnn的知识转移能力由其对应部门的相似性来衡量。我们将DEPARA应用于迁移学习中两个重要但尚未研究的问题:预训练模型选择和层次选择。通过大量的实验验证了该方法在解决这两个问题上的有效性和优越性。再现本文结果的代码、数据和模型可在
Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
由于场景文本的高度多样性和复杂性,任意形状文本的检测是一项具有挑战性的任务。本文提出了一种用于任意形状文本检测的统一关系推理图网络。在我们的方法中,一个创新的局部图通过卷积神经网络(CNN)连接一个文本提议模型和一个通过图卷积网络(GCN)连接的深层关系推理网络,使得我们的网络端到端可训练。具体来说,每个文本实例将被划分为一系列小的矩形组件,这些小组件的几何属性(例如高度、宽度和方向)将由我们的文本建议模型来估计。在给定几何属性的情况下,局部图构造模型可以粗略地建立不同文本组件之间的链接。为了进一步推理和推断组件与其邻居之间连接的可能性,我们采用基于图的网络对局部图进行深层关系推理。在公共数据集上的实验证明了我们方法的最新性能。
CVPR2020
Learning Multi-Granular Hypergraphs for Video-Based Person Re-Identification(CVPR 2020)
Referring Image Segmentation via Cross-Modal Progressive Comprehension(CVPR 2020)
GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning(CVPR 2020)
When2com: Multi-Agent Perception via Communication Graph Grouping(CVPR 2020)
Cross-Domain Few-Shot Learning with Meta Fine-Tuning(CVPR 2020)
Structured Query-Based Image Retrieval Using Scene Graphs(CVPR 2020)
VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation(CVPR 2020)
STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and Trajectory Prediction(CVPR 2020)
Music Gesture for Visual Sound Separation(CVPR 2020)
Self-Learning with Rectification Strategy for Human Parsing(CVPR 2020)
Representation Learning of Histopathology Images using Graph Neural Networks(CVPR 2020)
Learning Furniture Compatibility with Graph Neural Networks(CVPR 2020)
Inter-Region Affinity Distillation for Road Marking Segmentation(CVPR 2020)
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions(CVPR 2020)
Semantic Image Manipulation Using Scene Graphs(CVPR 2020)
Appearance Shock Grammar for Fast Medial Axis Extraction from Real Images(CVPR 2020)
DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes(CVPR 2020)
Synchronizing Probability Measures on Rotations via Optimal Transport(CVPR 2020)
Learning to Cluster Faces via Confidence and Connectivity Estimation(CVPR 2020)
DPGN: Distribution Propagation Graph Network for Few-shot Learning(CVPR 2020)
Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition(CVPR 2020)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation(CVPR 2020)
L2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks(CVPR 2020)
Distilling Knowledge from Graph Convolutional Networks(CVPR 2020)
Spatial Pyramid Based Graph Reasoning for Semantic Segmentation(CVPR 2020)
Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks(CVPR 2020)
Hierarchical Human Parsing with Typed Part-Relation Reasoning(CVPR 2020)
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning(CVPR 2020)
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs(CVPR 2020)
4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras(CVPR 2020)
Unbiased Scene Graph Generation from Biased Training(CVPR 2020)
Auto-Encoding Twin-Bottleneck Hashing(CVPR 2020)
Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction(CVPR 2020)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning(CVPR 2020)
FPConv: Learning Local Flattening for Point Convolution(CVPR 2020)
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences(CVPR 2020)
Graph Embedded Pose Clustering for Anomaly Detection(CVPR 2020)
Making Better Mistakes: Leveraging Class Hierarchies with Deep Networks(CVPR 2020)
Deep Iterative Surface Normal Estimation(CVPR 2020)
VQA with no questions-answers training(CVPR 2020)
Bidirectional Graph Reasoning Network for Panoptic Segmentation
Graph Structured Network for Image-Text Matching
Pose-guided Visible Part Matching for Occluded Person ReID
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text
3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation
Density-Aware Graph for Deep Semi-Supervised Visual Recognition
Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection
Intelligent Home 3D: Automatic 3D-House Design from Linguistic Descriptions Only
Distribution-induced Bidirectional Generative Adversarial Network for Graph Representation Learning
Conv-MPN: Convolutional Message Passing Neural Network for Structured Outdoor Architecture Reconstruction
G-TAD: Sub-Graph Localization for Temporal Action Detection
Shoestring: Graph-Based Semi-Supervised Learning with Severely Limited Labeled Data
A Topological Nomenclature for 3D Shape Analysis in Connectomics
Graph-guided Architecture Search for Real-time Semantic Segmentation
Progressive Relation Learning for Group Activity Recognition
CVPR2019 Oral
Relational Action Forecasting(CVPR2019 Oral)
SDRSAC: Semidefinite-Based Randomized Approach for Robust Point Cloud Registration without Correspondences(CVPR2019 Oral)
AdaGraph: Unifying Predictive and Continuous Domain Adaptation through Graphs(CVPR2019 Oral)
The Regretful Agent: Heuristic-Aided Navigation through Progress Estimation(CVPR2019 Oral)
3D Hand Shape and Pose Estimation from a Single RGB Image(CVPR2019 Oral)
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering(CVPR2019 Oral)