[文献翻译]Temporal Relational Reasoning in Videos

摘要:时间关系推理是指随着时间的推移将对象或实体有意义的转换联系起来的能力,这是智能物种的基本属性。在本文中,我们介绍了一种有效且可解释的网络模块,即时间关系网络(TRN),该模块旨在学习和推理多个时间尺度上帧之间的时间依赖性。我们使用三个最近的视频数据集SomethingSomething,Jester,Charades评估了行为识别任务上TRN的网络,这些数据集基本上依赖于时间相关推理。我们的结果表明,提出的TRN为卷积神经网络提供了显着的能力来发现视频中的时间关系。 仅通过稀疏采样的视频帧,配备TRN的网络就可以准确预测Something-Something数据集中的对象互动,并在Jester数据集上识别具有非常竞争力的性能。配备TRN的网络在识别Charades数据集中的日常活动方面也优于双流网络和3D卷积网络。进一步的分析表明,这些模型学习了视频中直观且易于理解的视觉常识知识。

1引言

随时间推移推理实体之间关系的能力对于决策至关重要。时间关系推理使聪明的物种能够分析与过去有关的当前状况,并就下一步可能发生的情况提出假设。 例如(图1),给定事件的两个观察结果,人们可以轻松地识别两个状态之间的时间关系,并推断出视频的两个帧之间发生了什么。

时间关系推理对于行为识别至关重要,它构成了描述事件步骤的基础。 一个行为可以包含短期和长期的几个时间关系时间尺度。例如,短跑的活动包含长期的时间关系,即在起跑时蹲伏,在赛道上奔跑并在终点线处结束,同时还包括周期性的手脚运动的短期时间关系。

视频中的行为识别已成为计算机视觉的核心主题之一。 然而,由于在时间尺度上描述运动仍然很困难[21]。 许多视频数据集(例如UCF101 [24],Sport1M [11]和THUMOS [7])包含许多活动,无需考虑长期的时间关系即可识别:静止帧和光流足以识别许多行为。确实,基于帧和光流的经典双流卷积神经网络[23]和最近的I3D网络[3]在这些数据集上都有很好的性能。

然而,在数据有限或底层结构以变换为主而不是外观为特征的情况下,卷积神经网络仍然难以解决[17,14]。对于卷积神经网络而言,推理时间关系和留意观察物体变化仍然极具挑战性。 图1显示了这样的示例。这些网络需要随着时间的推移发现视觉常识知识,而不仅仅是框架中物体的外观和光流。

在这项工作中,我们提出了一个称为时间关系网(TRN)的简单且可解释的网络模块,该模块可以在神经网络中实现时间关系推理。该模块的灵感来自于文献[17]中提出的关系网络,但是TRN并未描述空间关系,而是描述了视频中观测之间的时间关系。 因此,TRN可以在多个时间尺度上学习和发现可能的时间关系。TRN是一个通用的可扩展模块,可以与任何现有的CNN架构即插即用一起使用。我们将配备TRN的网络应用于最近的三个视频数据集(Something-Something [8],Jester [1]和Charades [22]),这些数据集用于识别不同类型的活动,例如人对物体的交互和手势,但都依赖于时间关系推理。即使仅使用离散的RGB帧,配备TRN的网络也可以获得非常有竞争力的结果,从而大大提高了基准。因此,TRN为标准神经网络提供了一种实用的解决方案,以使用时间关系推理来解决行为识别任务。

1.1相关工作

用于****行为****识别的卷积神经网络。视频中的行为识别是计算机视觉中的核心问题。随着深度卷积神经网络(CNN)的兴起,该技术可在图像识别任务上实现最先进的性能[13,29],许多工作已着眼于设计用于行为识别的有效深度卷积神经网络[11,23,4,25,28,3]。例如,在Sport1M数据集上探索了在时间维度上融合RGB帧的各种方法[11]。提出了带有一个静态图像流和另一个光流的双流CNN网络,以融合物体外观和短期运动的信息[23]。3D卷积网络[25]使用3D卷积核从密集的RGB帧序列中提取特征。时间分段网络对不同时间段的帧和光流进行采样,以提取信息以进行活动识别[28]。一个CNN + LSTM模型,该模型使用CNN提取帧特征,并使用LSTM随时间整合特征,也用于识别视频中的行为[4]。最近,I3D网络[3]在密集的RGB和光流序列上使用具有扩展3D卷积的双流CNN,以在Kinetics数据集[12]上实现最先进的性能。现有的用于动作识别的CNN存在几个重要的问题:1)依赖于光流的预先提取降低了识别系统的效率;2)考虑到连续帧中的冗余,在密集帧序列上的3D卷积在计算上是昂贵的;3)由于馈入网络的帧序列通常限于20到30个帧,因此网络很难了解帧之间的长时间关系。 为了解决这些问题,提出的时间关系网络先对单个帧进行稀疏采样,然后学习它们的因果关系,这比对密集帧进行采样和卷积要有效得多。 我们显示配备TRN的网络可以有效地捕获多个时间尺度上的时间关系,并且仅使用稀疏采样的视频帧就可以胜过基于密集帧的网络。

行为****识别中的时间信息。对于许多现有视频数据集(例如UCF101 [24],Sport1M [11],THUMOS [7]和Kinetics [12])上的行为识别,静止帧的外观和短期运动(例如光流)是识别行为最重要的信息。 因此,诸如双流网络[23]和I3D网络[3]之类的行为识别网络被定制为捕获密集帧的这些短期状态。 因此,现有的网络不需要建立时间关系推理能力。另一方面,最近通过众包收集了各种视频数据集,这些数据集关注顺序活动识别:Something-Something数据集[8]用于通用的人与对象交互。 它具有视频类别,例如“将某物放入某物”,“将某物推入某物”,甚至是“假装打开某物而没有实际打开它”。Jester数据集[1]是另一个用于手势识别的最新视频数据集。众包工作者录制的视频记录了27种手势,例如“竖起大拇指”,“向左滑动”和“逆时针旋转”。Charades数据集也是高级人类活动数据集,它通过要求工作者进行一系列家庭活动然后自己录象来收集视频[22]。为了识别这三个数据集中的复杂活动,将时间关系推理集成到网络中至关重要。此外,许多先前的工作都使用词袋,运动原子或动作语法来模拟视频的时间结构,以进行动作识别和检测[5、16、26、6、27]。代替手动设计时间结构,我们使用更通用的结构来学习端到端训练中的时间关系。 因此,它可以更有效地运行以处理测试中的视频。

关系****和****直觉推理。最近,已经提出了关系推理模块,用于视觉问题解答具有超人表现[17]。我们的工作受到这项工作的启发,但我们专注于对视频中的多尺度时间关系建模。在机器人自我监督学习领域,已经提出了许多模型来学习画面之间的常识信息。给定一个初始状态和一个目标状态,带有强化学习的逆动力学模型被用来推断对象状态之间的转换[2]。物理交互和观察也被用来训练深度神经网络[15]。 时间对比网络用于从第三人称视频观察中对对象操作进行自我监督的模仿学习[18]。 我们的工作旨在在有监督的学习环境中学习视频中的各种时间关系。 所提出的TRN可以扩展到用于机器人对象操纵的自监督学习。

2:TRN

在本节中,我们介绍时间关系网络的框架。 它很简单,可以很容易地插入到任何现有的卷积神经网络体系结构中,以实现时间关系推理。 在以后的实验中,我们显示配备TRN的网络发现可解释的视觉常识知识,以识别视频中的活动。

2.1定义时间关系

受视觉推理的关系推理模块的启发[17],我们将成对时间关系定义为复合函数,如下所示:

其中输入是视频V,其中n个选定的有序帧为V = {f1,f2,...,fn},其中fi是视频的第i帧的表示,例如,来自某些标准CNN的输出激活。函数hφ和gθ融合了不同顺序帧的特征。在这里,我们仅使用参数分别为φ和θ的多层感知器(MLP)。为了进行有效的计算,而不是相加所有组合对,我们对帧i和j进行统一采样并对每个对进行排序。

我们进一步将2帧时间关系的复合函数扩展到更高的帧关系,例如下面的3帧关系函数:

其中,总和再次是经过统一采样和排序的帧i,j,k的集合。

2.2 多尺度时间关系

为了计算多个时间尺度的时间关系,我们使用以下复合函数累积不同尺度的帧关系:

每个关系项Td捕获d个有序帧之间的时间关系。 每个Td都有自己的h(d)φ和g(d)θ。注意,对于每个Td的d帧的任何给定样本,所有时间关系函数都是端到端可微的,因此它们都可以与用于提取每个视频帧特征的基本CNN一起训练。整个网络框架如图2所示。

2.3高效的训练和测试

在训练多尺度时态网络时,我们可以通过为视频的每个T选择不同的d帧集来对总和进行采样。但是,我们使用的采样方案会大大减少计算量。首先,我们从视频V中均匀采样一组N帧 ,然后计算TN(V)。 然后,对于每个d

在测试时,我们可以在移动的窗口中使用配备TRN的网络来处理长视频。特征队列用于缓存从视频中采样的等距帧提取的CNN特征,然后将这些特征进一步组合成不同的关系元组,然后馈入TRN以预测活动。CNN特征仅从传入帧中提取一次,然后才进入队列,因此,配备TRN的网络非常高效,可以实时运行。

3实验

我们在各种行为识别任务上评估配备TRN的网络。对于识别依赖于时间关系推理的活动,配备TRN的网络要比没有TRN的基线网络大很多。我们在用于人机交互识别的Something-Something数据集和用于手势识别的Jester数据集上建立了最先进的结果[1]。配备TRN的网络还可以在Charades数据集[22]中获得关于活动分类的优秀性能,仅使用稀疏采样的RGB帧就可以胜过Flow+RGB集成模型[20,22]。

表1中列出了这三个数据集的统计数据:Something-Something数据集[8],Jester数据集[1]和Charades数据集[22]。所有这三个数据集都是众包的,其中视频是通过工作人员自行通过指示录制的。 与UCF101和kinetics中的Youtube型视频不同,在众包视频中,每个活动通常都有清晰的起点和终点,强调了时间关系推理的重要性。

3.1网络架构和训练

用于提取图像特征的网络在视觉识别任务中起着重要的作用[19]。诸如ResNet [9]之类的更深层网络的特征通常表现更好。 我们的目标是评估TRN模块在视频中进行时间关系推理的有效性。 因此,我们将所有实验中的基础网络体系结构固定为相同,并比较有无提出的TRN模块的CNN模型的性能。

我们采用在[10]中使用的ImageNet上预训练的带有批归一化的Inception(BNInception),因为它在准确性和效率之间取得了平衡。我们遵循部分BN的训练策略(冻结除第一层之外的所有批处理规范化层)和在[28]中使用全局池化后随机失活。对于三个数据集上的训练模型,我们都将MultiScale TRN模块的网络架构和训练超参数保持相同。我们在实验中将每个关系模块中设置k = 3。gφ只是一个两层MLP,每层256个单元,而hφ是一个单层MLP,其单元数量与类数量匹配。 给定帧的CNN特征是从BN-Inception的全局平均池化层(在最终分类层之前)启动的。以BN Inception为基础CNN,可以在24小时内实现100个训练epoch在一个TitanXPGPU上。在多尺度TRN中,我们包括从2帧TRN到8帧TRN的所有TRN模块,因为包括更高帧的TRN会带来边际改进并降低效率。

3.2在Something-Something数据集上的结果

Something-Something是用于人与对象交互识别的最新视频数据集。该课程共有174个类别,其中一些含糊的活动类别具有挑战性,例如“将某物撕成两半”与“将某物撕一点”,“将某物倒置”与“假装将某物倒置”。我们可以看到,对象的时间关系和变换而不是对象的外观是数据集中活动的特征。

验证集的结果列在表2中,在表2中,我们比较了在从每个视频中随机选择的单个帧上训练的基本网络,具有各种帧关系模块的基本网络以及多尺度TRN的top1和top5精度。具有TRN的网络在很大程度上优于单个帧的基准,而关系中包含的其他帧则带来了进一步的改进。 具有十种剪切数据增强功能的多尺度TRN可获得最佳性能。

我们将测试集上的MultiScale TRN预测提交给官方排行榜。在提交时,我们的方法仅使用离散帧在排行榜顶部,如表3所示。

3.3在Jester和Charades上的结果

我们进一步在Jester数据集上评估了配备TRN的网络,该数据集是用于手势识别的视频数据集,具有27个类。表4中列出了Jester数据集的验证集的结果。表5中列出了测试集的结果以及与官方排行榜中顶级方法的比较。MultiScaleTRN再次达到了SOTA,准确性接近95%。

我们在最近的Charades数据集上评估MultiScale TRN,以进行日常活动识别。 结果列在表6中。我们的方法优于双流网络和C3D [22]和最新的AsycTempField方法[20]等各种方法。

图3显示了三个数据集上的多尺度TRN的定性预测结果。图3中的示例表明,TRN模型能够正确识别帧的时间顺序从而了解对于成功预测至关重要的动作。例如,逆时针旋转类别在相反显示时将具有不同的类别标签。此外,成功预测某人假装执行某项动作的类别(例如第二行所示,“假装将某物放入某物”)表明该网络可以捕获多个尺度的时间关系,其中短段中包含的几个较低级动作的顺序传达了有关整个活动类别的关键语义信息。

这种出色的性能显示了TRN在时间关系推理方面的有效性及其在不同数据集中的强大概括能力。

3.4解释TRN中的视觉常识知识

与以前的视频分类网络(例如C3D [25]和I3D [3])相比,提出的TRN的独特特性之一是TRN具有更易解释的结构。在本节中,我们将进行更深入的分析,以通过解决这些时间推理任务来解释TRN所学的视觉常识知识。我们探索以下四个部分:

TRN投票认可****的行为****视频的代表帧。直观地,人类观察者可以通过选择少量代表性帧来捕获动作的本质。训练的识别行为模型是否也一样?为了获得每个TRN的代表帧序列,我们首先从视频中计算等距帧的特征,然后将它们随机组合以生成不同的帧关系元组并将它们传递到TRN中。最后,我们使用不同TRN的响应对关系元组进行排序。图4显示了由不同TRN投票选出的顶部代表性帧,以识别同一视频中的行为。 我们可以看到,TRN学习了表征活动的时间关系。 对于一些单帧就能产生足够置信的简单动作,当存在转换时很容易出错。2帧TRN拾取最能描述变换的两个帧。同时,对于诸如“假装戳”之类的难度较大的行为类别,即使是人类观察者,两个画面也不足以区分。 同样,网络需要TRN中的其他帧才能正确识别该行为。

因此,代表帧的进展及其对应的类预测让我们了解到有关时间关系如何帮助模型推理更复杂行为的信息。一个特别的例子是图4中的最后一个视频:一个画面(一只手靠近一本书)给出的动作上下文足以将最上面的预测缩小为定性的,可以展开的动作。一个类似的两帧关系稍微增加了初始预测的可能性,尽管这两个帧甚至对于人类观察者来说都不足以做出正确的预测。现在,三个框架的关系开始突出显示SomethingSomethings一组假装类别的特征模式:初始框架与某个动作非常相似,但是后面的框架与该动作的完成不一致,好像从未发生过。 此关系有助于模型将其预测调整为正确的类。 最后,在4帧关系的第三帧中,个人手的向上运动进一步增加了场景的预期和观察到的最终状态之间的不一致。 似乎发生了类似于该动作的运动而对对象没有影响,因此巩固了对正确类别预测的信心。

时间顺序对于活动识别的重要性。为了验证帧的时间顺序对于活动识别的重要性,我们进行了一项实验,在训练TRN时以时间顺序和随机顺序将场景与输入帧进行比较,如图5所示。对于训练随机的TRN,我们随机调整关系模块中的画面。Something-Something数据集上的显着差异表明了时间顺序在行为识别中的重要性。更有趣的是,我们在UCF101数据集上重复了相同的实验[24],并观察到有序帧和随机帧之间没有差异。这表明UCF101中的YouTube视频类型的行为识别不一定需要时间推理能力,因为与正在进行的行为没有太多的随意变化。

为了进一步研究时间顺序如何影响TRN中的行为识别,我们检查并绘制的这些类别显示了从Something-Something数据集中得出的有序输入和随机输入之间的类准确性之间的最大差异,如图6所示。 “方向性和大型单向运动,例如”向下移动某些东西”,似乎从保持正确的时间顺序中受益最大。这一观察结果与以下观点相吻合:连续运动的中断和视频帧随机的潜在后果可能会使人类观察者感到困惑,因为这有悖于我们直观的物理学概念。

有趣的是,如果在某些情况下,则对相对静态动作的惩罚并不那么严厉,其中一些类别从随机的输入中略微受益,如类别“使某些东西无法滚动到倾斜的表面上,因此它留在原地'。 在这里,仅学习帧的重合而不是时间变换就足以使模型区分相似的活动并做出正确的预测。

特别是在具有挑战性模糊的情况下,例如“假装扔东西”,其中释放点被部分或完全遮挡,破坏强烈的“运动感”可能会使模型预测偏离可能,“扔东西”经常被模型错误选择,因此导致该动作的准确性产生差异。

活动相似性的t-SNE可视化。 图7显示了分别从单帧,3帧,5帧获取的验证集中15个最频繁的行为类别的视频高级特征的t-SNE可视化。我们可以看到2帧和5帧TRN的特征可以更好地区分行为类别。我们还观察了可视化图中类别之间的相似性。例如,“将某物撕成两半”与“将某物撕一点”非常相似,并且“折叠某物”,“展开某物”,“拿着某物”,“在某物上保留某物”类别也聚集在一起。

预期的****行为。 在活动发生或完全发生之前对其进行预测是一项充满挑战且尚未解决的行为识别问题。在此,我们在每个验证视频中仅给出前25%和50%时,就预期行为评估了我们的TRN模型。结果显示在表7中。为了进行比较,我们还包括了单帧基线。我们看到TRN可以使用学习到的时间关系来预测行为。随着接收到更多有序帧,性能会提高。图8显示了仅使用视频的前25%帧进行预期活动的一些示例。 对这些示例的定性分析表明,即使对人类观察者而言,尽管被赋予具有高度不确定性的任务,但仅在初始阶段上的画面确实可以作为非常合理的预测。

4结论

我们提出了一个简单且可解释的网络模块,称为时间关系网络(TRN),以在视频的神经网络中启用时间关系推理。 我们在几个最新的数据集上评估了提出的TRN,并仅使用离散帧建立了优秀结果。最后,我们证明了TRN模块可以发现视频中的视觉常识知识。

你可能感兴趣的:([文献翻译]Temporal Relational Reasoning in Videos)