论文地址:https://arxiv.org/pdf/2105.12043.pdf
为了捕获在不同粒度级别上的依赖关系,本文直观地提出了一个使用transformer的单一时间动作提案生成框架,称为TAPG Transformer,它由一个Boundary Transformer和一个Proposal Transformer组成。通常,Boundary Transformer捕获长期的时间依赖性来预测精确的边界信息,而Proposal Transformer学习丰富的inter-proposal关系,以进行可靠的一致性评估。
上图是TAPG模型总览图,给定一个未修剪的视频,Boundary Transformer捕捉帧间关系,Proposal Transformer编码proposal间关系。我们进一步将边界概率与一致性序列进行匹配,以生成建议。
一般来说,现有的TAPG方法主要有两类:基于锚点的回归方法和基于边界的回归方法。这两种回归方法通常从不同的方面采用视频中的上下文信息。基于锚定的方法基于多尺度和密集的预化锚定生成行动提案,这样,我们就可以评估具有丰富的提案级上下文信息的提案的一致性分数。因此,这些方法可以获得可靠的一致性评分,但仍然存在,而且通常存在不精确的边界。最近,基于边界的方法利用边界周围的帧级上下文信息来预测边界。因此,与基于锚点的方法相比,它们可以生成具有更长可存在的持续时间和更精确的边界的建议。同时,它们对噪声更加敏感,没有考虑丰富的方案级环境。基于上述分析,我们试图更充分地利用框架级上下文和提案级上下文来生成时间提案。Boundary Transformer的目标是通过捕获局部细节和全局依赖关系之间丰富的长期时间关系来定位精确的动作边界。为此,提供视频特征的序列作为Tansformer的输入,模块的输出是边界概率。然后,Proposal Transformer来捕获潜在的方案间关系,以进行一致性评估。我们还提出了一种稀疏抽样机制来生成稀疏建议序列,而不是密集分布的建议。
总之,我们的工作有三个主要贡献:我们提出一个proposal Transformer来捕获长期帧级依赖,以精确的时间边界预测。我们提出了一种具有稀疏建议采样机制的方案变换器,它可以学习方案环境评估的建议级上下文。此外,稀疏抽样可以显著减少密集分布方案带来的影响。大量的实验表明,我们的方法在THUMOS14上优于现有的先进方法,并且在时间动作提议生成任务和时间动作检测任务上取得了相当的性能。
Transformer具有编码器-解码器结构。编码器由六个相同的块组成,每个块有两个子层:一个多头自注意层和一个简单的位置级全连接的前馈层。与编码器类似,Transformer模型中的解码器由6个相同的块组成。除了每个编码器块中的两个子层之外,解码器还插入第三子层,该子层对相应的编码器块的输出执行多头注意。
Transformer架构的一个关键特征是所谓的自我注意机制,它明确地建模了结构化预测任务序列的所有实体之间的交互。然后,我们计算自注意机制的输出为:
时间动作提案生成任务一般分为边界预测和proposal置信度评估两个子任务。在精确的边界预测中,远程帧级依赖关系是可取的。此外,对丰富的建议间关系的建模在一致性回归中起着至关重要的作用。由于变压器模型在语言领域的成功,类似于变压器在句子上的操作方式,它可以自然地应用于一系列的框架或建议。因此,我们提出通过一个双元变压器网络来依次解决每个任务,从而能够捕获序列元素之间的长期信息和依赖性。上图说明了我们提出的框架的架构,该框架被称为TAPG Transformer。
给定一个包含帧的未裁剪视频,我们以规则间隔对输入视频进行处理,以降低计算代价。然后利用特征提取器对视频帧中的视觉特征进行编码。我们将双流网络中最后一个全连接层的输出连接起来,形成特征序列,其中=/。最后,将特征序列作为我们的框架的输入。
我们的模型主要包含两个主要模块:Boundary transformer和Proposal Transformer。Boundary transformer的目的是捕获帧级特征之间的长期依赖关系,然后输出边界概率序列。与学习帧间关系的Boundary transformer类似,我们提出了一种Proposal Transformer来建模具有不同尺度的建议之间的关系,并评估建议的一致性。在执行提案间关系之前,我们需要生成提案特性作为Proposal Transformer的输入。为此,之前的工作通常使用密集采样,这将产生大量的冗余的建议,并导致正/负建议和时间持续时间之间的数据分布不平衡。因此,我们提出了一种稀疏抽样机制来生成候选方案,然后将其输入方案转换器,该变压器编码方案之间的潜在关系,然后从方案一致性序列中输出相应的一致性得分。
长期的时间依赖性建模是边界回归的关键。以往的方法通常采用堆叠时间卷积或全局时间池来捕获时间关系。然而,一维时间卷积可以精确地捕获帧间的局部时间关系,但缺乏受核大小限制的长期时间结构的建模能力。相反,全局时间池执行平均池来捕获全局特征,但不能捕获单个时间结构,并可能引入不必要的噪声。为此,我们提出了一种Boundary Transformer来建模局部时间关系和长期时间依赖结构。我们采用了一个层的变压器,每一层的编解码器结构如下:
Encoder用于估计一个帧与其他帧的相关性。首先,我们使用双流模型得到了帧级特征序列。然后,我们将它们提供给Transformer Encoder,并生成一个具有全局上下文的增强特征序列。该编码器具有一个标准的体系结构,它由一个多头自注意模块和一个前馈网络(FFN)组成。编码器的输出以及embeddings被作为解码器的输入。
Decoder包含三个子层,前两个(多头自注意和前馈网络)与编码器相似,而第三个子层对编码器堆栈的输出执行多头注意。第一个自注意模块的输入是特征序列\,它与编码器的特征序列相同。然后,该模块输出特征序列。特别的,对于第二个自注意模块,、由转换,由转换。通过这种方式,解码器进一步增强了相关特征,同时减少了来自解码器的过平滑效果。
然后将解码器的输出表示作为边界预测任务的全局表示。另外,我们附加了一个边界头,用多层感知器(MLP)网络对解码器的输出表示进行编码,然后附加一个Sigmoid层来生成预测的边界概率序列。
对于提案置信度预测,之前的工作首先生成密集分布的提案,然后预测它们的一致性分数。显然,密集的建议将导致正面/消极建议之间的数据分布不平衡,造成更多的计算负担。同时,提案间关系建模是一个以前被忽视的问题,在提案一致性评价中起着至关重要的作用。
稀疏采样机制旨在保持稀疏建议序列。通常,我们使用斐波那契序列作为滑动窗口组来生成具有不同尺度的建议。每个滑动窗口的步长的计算方法为:
我们采用了一个原始Transformer模型中基于编码器和解码器的层变压器。该编码器旨在捕捉不同规模的提案之间的关系。将稀疏建议特征序列作为编码器的输入。然后,编码器输出具有全局视图的特征序列。与Boundary Proposal类似,解码器从编码器中获取输入以及之前的输出来生成增强的建议特征序列。从解码器输出中获取建议序列。