Second-order Temporal Pooling for Action Recognition

Cherian A, Gould S. Second-order temporal pooling for action recognition[J]. International Journal of Computer Vision, 2019, 127(4): 340-362.

基于视频的动作识别的深度学习模型通常为短视频片段(由几帧组成)生成特征;通过计算这些特性的统计数据,将这些剪辑级特性聚合到视频级表示。通常使用零(最大值)或一阶(平均)统计数据。在本文中,我们探讨了使用二阶统计量的好处。具体地说,我们提出了一种新颖的端到端可学习的特征聚合方案,称为时间关联池,通过捕获跨视频计算的剪辑级CNN特征的时间演化之间的相似性,为视频序列生成动作描述符。这样的描述符虽然计算成本很低,但也可以自然地编码多个CNN特性的协同激活,从而提供比一阶操作更丰富的动作描述。将CNN特征嵌入到一个可复制的核Hilbert space希尔伯特空间中,通过计算相关性,提出了该方案的高阶扩展。我们在基准数据集(如HMDB-51和UCF-101)、细粒度数据集(如MPII Cooking activities和JHMDB)以及最新的Kinetics-600上提供实验。我们的结果证明了高阶池模式的优势,当与手工制作的特性(如标准实践)相结合时,可以达到最先进的精度。

然而,尽管有了这些突破,行动识别的问题还远远没有解决,在一般情况下仍然具有挑战性。现实世界的行为通常是在非常微妙的方式不同(例如,洗盘子、洗手),可能有很强的外观变化(例如,切片黄瓜vs切片番茄),可能涉及严重遮挡的物体或人体部分,可能涉及背景活动,可以使用难以探测对象(如刀,皮尔士等),并可能发生在不同时间或不同的利率。在本文中,我们探讨了各种二阶方案来解决这些问题。虽然我们的方案适用于一般环境,但我们也探讨了它们在细粒度环境中的适用性,该环境由具有低类间多样性和高类内多样性的活动组成

然而,与图像相比,视频数据是体积的,因此扩展这种基于图像的模型会导致巨大的计算和内存开销,这在当前可用的硬件平台下很难解决。一种通常被认为很有前途的解决方法是将基于视频的识别问题简化为更简单的图像大小的子问题,这些子问题的结果稍后将在融合层中进行整理,以生成完整视频的预测。虽然单帧可能不足以有效地捕捉动作,因为它们缺乏任何时间方面,但使用较长的剪辑需要更多的CNN参数,因此需要更多的训练数据和计算资源。因此,常用的深度动作分类器都是在很小的子序列(10-16帧)上训练的;将从中汇集的预测生成序列级表示

通常,使用子序列级预测的最大池或平均池,尽管这样的池操作易于实现且计算速度快,但它们忽略了独立预测中包含的有价值的更高级别信息,这些信息可以提高识别能力。例如,在细粒度识别的上下文中,让我们考虑两个活动:洗盘子和擦盘子。很明显,区分这两种行为并不容易,因为它们的外观相似。假设前者的序列也包含重叠的活动,比如自来水(后者没有)。如果我们计算剪接级特征,很可能前者中的一些剪接会混淆于洗盘子和自来水之间;然而,在擦盘子时却没有这种混淆。我们建议利用这种混淆来产生更好的动作表示。在上面的例子中,我们计算了这两种活动(即洗盘子和擦盘子)的clip级动作分类器得分的共现,然后针对这些共现训练一个动作分类器。由于底层分类器混淆是强相关的,因此共现矩阵将捕获这些关联,以便更好地识别动作,而不是使用较弱的统计数据,如平均池或最大池。

在本文中,我们提出了一种二阶特征池(TCP)方案,该方案以每帧一个CNN特征(来自任何中间层)的时间序列作为输入(第3.4节)。每个维度的特征都可以看作是一个特征轨迹,对应于各自CNN滤波器激活的时间演化。TCP将这些轨迹总结为一个对称正定矩阵(SPD),该矩阵的每个条目都捕捉到这些轨迹之间的相似性。

这里有许多好处,这样的表示提供了与之前的方法相比,即矩阵(i) SPD,尽管跨越欧几里得空间,往往通过黎曼几何的视角看,提供丰富的非线性距离相似性计算办法,可以帮助提取有用的信号识别,(ii)SPD矩阵可以自然视为Mercer内核,将特征轨迹嵌入到无限维复制核希尔伯特空间(RKHS)中,增强其表示能力,并(iii)通过求和或积核将先验信息直接合并到SPD核中,可以计算出相似性

你可能感兴趣的:(行为识别)