2021-06-28

摘要:建模长距离依赖关系对于复杂场景理解任务(如语义分割和目标检测)至关重要。尽管CNNs在许多计算机视觉任务中表现出色,但由于CNNs通常由局部核层组成,因此在捕捉长程结构化关系方面仍然受到限制。一个完全连通的图对于这样的建模是有益的,然而,它的计算开销是禁止的。我们提出了一种基于消息传递神经网络框架的动态图消息传递网络,与建立完全连通图的相关工作相比,该网络显著降低了计算复杂度。这是通过根据输入自适应地对图中的节点进行采样来实现的,用于消息传递。在采样的节点的基础上,我们动态地预测与节点相关的滤波权重和亲和矩阵,以在它们之间执行信息传递。(Based on the sampled nodes, we dynamically predict node-dependent filter weights and the affinity matrix for propagating information between them)使用这个模型,我们在三种不同的任务和主干架构上展示了强大的、最先进的基线方面的显著改进。我们的方法在使用更少的浮点运算和参数的同时,也优于完全连通图。项目网站是https://www.robots.ox.ac.uk/~lz/dgmn/

1.引言

在语义分割、实例分割和目标检测等复杂场景理解任务中,获取长程依赖关系是至关重要的。尽管卷积神经网络(CNNs)在广泛的场景理解任务中表现出色[26,47,20],但它们仍然受到捕获这些远程交互的能力的限制。为了提高CNNs在这方面的能力,最近流行的Non-local网络模型[51]提出了注意模型[48]的推广,并在一些计算机视觉任务中取得了显著的进步。

Non-local网络本质上是对特征映射中所有特征元素之间的成对结构关系进行建模,以产生用于特征聚合的注意权重。Non-local网络将每个特征元素看作图中的一个节点,有效地对一个完全连通的特征图进行建模,从而对特征元素的个数具有二次推理复杂度。这对于高分辨率图像上的密集预测任务是不可行的,就像语义分割中经常遇到的那样[10]。此外,在密集预测任务中,由于图像中包含的冗余信息,通常不需要捕捉所有像素对之间的关系(图1)。简单地对特征图进行下采样以减少内存需求也是次优的,例如,朴素的下采样将导致图像中较小的对象无法充分表示。

图卷积网络(GCNs)[25,16]——它沿着图结构的输入数据传播信息——可以在一定程度上缓解非局部网络的计算问题。然而,这仅在为每个节点考虑局部邻域时有效(this stands only if local neighbourhoods are considered for each node)。采用这种局部连通图意味着复杂视觉任务(如分割和检测[43,40,3])所需的长距离上下文信息将仅被部分捕获。沿着这个方向,GraphSAGE[18]引入了一种基于图采样的高效图学习模型。然而,所提出的采样方法考虑了沿输入空间维度的均匀采样策略,并且与实际输入无关。因此,建模能力受到限制,因为它假设输入的图是静态的,其中每个节点的邻居是固定的,并且所有节点之间共享滤波器权重(it assumed a static input graph where the neighbours for each node were fixed and filter weights were shared among all nodes)。

针对上述不足,我们提出了一种新的动态图消息传递网络(DGMN)模型,通过对图1所示的两个关键的动态特性的联合建模,以有效和高效的深度表征学习为目标。我们的贡献有两个:(i)我们从特征图中动态采样节点的邻域,以节点特征为条件。直观地说,这种学习采样允许网络仅通过选择图中最相关节点的子集来有效地收集远程上下文(We dynamically sample the neighbourhood of a node from the feature graph, conditioned on the node features. Intuitively, this learned sampling allows the network to efficiently gather long-range context by only selecting a subset of the most relevant nodes in the graph)(ii)基于已经采样的节点,我们进一步动态地预测节点依赖性,从而得到位置特定的、过滤器权重和亲和矩阵,这些矩阵用于通过消息传递在特征节点之间传播信息。动态权重和亲和力特别有利于对每个采样特征上下文进行具体建模,从而实现更有效的消息传递。( Based on the nodes that have been sampled, we further dynamically predict node dependant, and thus position specific, filter weights and also the affinity matrix, which are used to propagate information among the feature nodes via message passing. The dynamic weights and affinities are especially beneficial to specifically model each sampled feature context, leading to more effective message passing.)这两个动态特性在一个模型中联合优化,我们将DGMN模块化为一个网络层,以便简单地部署到现有网络中。

我们在富有挑战性的城市景观[10]和COCO[36]数据集上演示了所提出的模型的语义分割、目标检测和实例分割任务。与完全连接的非局部模型相比,我们实现了显著的性能改进[51],同时使用了更少的浮点运算(FLOPs)。值得注意的是,我们的模型中有一个带有动态滤波器和亲和力的变体(即第二个动态特性)在仅使用9.4%的FLOPs和25.3%的参数的情况下实现了与非局部相似的性能。此外,将我们的模块“插入”到现有的网络中,我们在三种不同的任务和主干架构上展示了强大的、最先进的基线方面的显著改进。


图1:上下文信息对于复杂场景理解任务至关重要。要认识“船屋”,需要考虑“船”和旁边的“水”。完全连接的消息传递模型(a)能够获得此信息,但其成本高昂。此外,它们捕获了大量冗余信息(即“树”和“天空”)。局部连接模型(b)效率更高,但忽略了重要的上下文。我们提出的方法(c),基于学习的动态采样方案对相关特征节点的一小部分进行动态采样,i、 e.学习的特定位置随机游动(由白色虚线箭头表示),动态预测滤波器的权值和相似度(由唯一的边和正方形颜色表示),这两者都是以采样的特征节点为条件的。 Figure 1: Contextual information is crucial for complex scene understanding tasks. To recognise the “boathouse”, one needs to consider the “boat” and the “water” next to it. Fully-connected message passing models (a) are able to obtain this information, but are prohibitively expensive. Furthermore, they capture a lot of redundant information (i.e.“trees” and “sky”). Locally-connected models (b) are more efficient, but miss out on important context. Our proposed approach (c), dynamically samples a small subset of relevant feature nodes based on a learned dynamic sampling scheme, i.e. the learned position-specific random walk (indicated by the white dashed arrow lines), and also dynamically predicts filter weights and affinities (indicated by unique edge and square colors.), which are both conditioned on the sampled feature nodes.
  1. 相关工作

一种早期的计算机视觉任务上下文建模技术,涉及条件随机场。尤其是DenseCRF模型[27]非常流行,因为它模拟了图像中所有像素对之间的交互。尽管这些模型已经被集成到神经网络中[62,1,2,54],但它们受到这样一个事实的限制,即成对势(pairwise potentials)是基于简单的手工特征,而且,它们主要是对离散标签空间建模,因此不能直接应用于特征学习任务,因为特征变量通常是连续的。再加上CRF的计算成本很高,CRF不再用于大多数计算机视觉任务。

增加CNN感受野的一种补充技术是使用扩张卷积[5,57]。使用扩张卷积,参数的数量不会改变,而如果扩张率在连续层中线性增加,感受野会指数增长。卷积运算的其他修改包括可变形卷积[13,63],它学习相对于预定义网格的偏移,从中选择输入值。然而,可变形卷积滤波器的权值并不依赖于所选择的输入,而是事实上在所有不同的位置共享。相比之下,我们的动态采样的目的是对整个特征图(feature graph)进行采样,以获得一个大的感受野,并且预测的亲和力和消息传递的权重是位置特定的,并且取决于动态采样的节点。因此,我们的模型能够更好地捕捉基于位置的语义上下文,从而在特征节点之间实现更有效的消息传递。(In contrast, our dynamic sampling aims to sample over the whole feature graph to obtain a large receptive field, and the predicted affinities and the weights for message passing areposition specificand conditionedon the dynamically sampled nodes. Our model is thus able to better capture position-based semantic context to enable more effective message passing among feature nodes)

采样图节点的思想在GraphSAGE[18]中已有探讨。关键的是,GraphSAGE只是对节点进行均匀采样。相反,我们的采样策略是基于节点特征学习的。具体来说,我们首先在空间维度上对节点进行均匀采样,然后根据节点特征动态预测每个节点的行走。此外,GraphSAGE没有考虑我们的第二个重要属性,即亲和力和消息传递核的动态预测。(GraphSAGE simply uniformly samples nodes. In contrast, our sampling strategy is learned based on the node features. Specifically, we first sample the nodes uniformly in the spatial dimension, and then dynamically predictwalksof each node conditioned on the node features. Furthermore, GraphSAGE does not consider our second important property, i.e., the dynamic prediction of the affinities and the message passing kernels)

我们还注意到[24]提出了“动态卷积”的思想,即预测每个特征位置的动态卷积滤波器。最近,[52]在使用轻量级分组卷积的自然语言处理上下文中进一步降低了这种操作的复杂性。与文献[24,52]不同的是,我们提出了一种基于图的公式,并联合学习动态权值和动态亲和力,这些权值和亲和力是以图中每个特征节点的一个自适应采样邻域为条件的,使用所提出的动态采样策略来实现有效的消息传递。(we present a graph-based formulation, and jointly learn dynamic weights and dynamic affinities, which are conditioned on anadaptively sampled neighbourhoodfor each feature node in the graph using the proposed dynamic sampling strategy for effective message passing.)

  1. 动态图消息传递网络

你可能感兴趣的:(2021-06-28)