ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!...

关注公众号,发现CV技术之美

本文分享由达摩院、新加坡国立大学以及新加坡南洋理工大学在ICLR 2022上合作发表的论文『TAda! Temporally-Adaptive Convolutions for Video Understanding』,旨在赋予空间卷积时序推理的能力,提出即插即用的时序自适应卷积 TAdaConv,并构建高效的视频理解模型 TAdaConvNeXt,表现SOTA!

详细信息如下:

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第1张图片

  • 论文链接:https://arxiv.org/pdf/2110.06178.pdf

  • 项目主页:http://tadaconv-iclr2022.github.io

  • 项目链接:https://github.com/alibaba-mmai-research/TAdaConv

      01      

摘要

空间卷积被大量应用于当前的视频模型中,它的基本假设是卷积核由所有的时空位置共享。本文作者提出时序自适应卷积(TAdaConv),自适应地对卷积核沿着时间维度进行调整,从而使空间卷积能够进行时序推理,在几乎没有额外计算量的情况下有效提升模型的时序推理能力。相比早期的时序推理方法而言,TAdaConv更为高效,同时还能大大提升模型容量。

实验证明,TAdaConv可以有效地提升已有视频模型在视频分类和时序动作定位上的能力。在Kinetics-400,Something-Something-V2以及Epic-Kitchens-100视频分类任务上,基于TAdaConv构建的TAda2D和TAdaConvNeXt模型均达到了极具竞争力的性能

此外,作为一种高效引入时序上下文的方式,该文提出的时序自适应卷积TAdaConv也在视频分类意外的任务得以应用。在CVPR 2022 TCTrack: Temporal Contexts for Aerial Tracking中,TAdaConv被拓展为Online-TAdaConv,并被展示可以被用于目标跟踪网络来提取带有时空上下文的特征,从而提升目标跟踪器的性能。

      02      

Motivation

卷积是当前深度视觉模型中至关重要的一个操作,它助力了许多卷积模型在大量视觉任务上取得SOTA的性能。在视频分类模型中,相比于直接对时空信息进行建模的3D卷积而言,2D空间卷积和1D时序卷积的组合由于他们的高效性而更为广泛使用。尽管如此,1D时序卷积仍然在2D空间卷积的基础上带来了不可忽视的额外计算开销。因此,本文尝试直接为空间卷积赋予时序推理的能力。

由于卷积的局部连接和权重共享机制,卷积具有平移不变性。近期关于动态卷积核的研究发现,这种严格的权重共享可能对于复杂空间内容的建模是不利的。

本文提出假设,放松时序上的时序不变性(temporal invariance)可以增强卷积的时序建模能力。基于该假设,作者提出时序自适应卷积(TAdaConv)来代替传统视频模型中的卷积,并分别基于ResNet和ConvNeXt构建高效的视频模型TAda2D以及TAdaConvNeXt。

      03      

方法

对于空间卷积而言,时序不变性体现在空间卷积的权重在视频的每一帧中是共享的。因此,要放松时序上的不变性,TAdaConv在不同的视频帧中使用不同的卷积权重(如下图所示)。




ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第2张图片

图注:标准的空间卷积与TAdaConv的对比

具体地,TAdaConv将每一帧的卷积核2d4688ba7bbb7249fe009b1d57e09e0a.png分解为一个基权重(base weight)和一个校准权重(calibration weight)的组合:

ec29d78b836c77d79af47ea9f594014f.png

其中基权重7fde54f1fcd231ad432ea824fae456e3.png由所有视频帧共享,而校准权重3a38f2b49d43d40e1d324a54c18be169.png则根据输入自适应地生成。

这么做有三点好处:

  • 第一,TAdaConv可以是即插即用的,并且模型的预训练权重可以仍然被保留和利用;

  • 第二,由于校准权重的存在,卷积的时序推理能力得以增强,空间卷积被赋予时序推理能力;

  • 第三,相较时序卷积而言,由于时序卷积是在特征图上的操作,而TAdaConv是在卷积核上的操作,TAdaConv更加高效。

为了使模型能够更好地对复杂的时序关系进行建模,关键的点在于校准权重063dc328752c932289fb1305dd512a06.png的生成过程。TAdaConv使用的校准权重生成过程可以参考下图。

作者认为,校准权重424328ad56b4234aaf317d7b85d9cabd.png的生成不仅需要考虑到当前帧b04c56caab9858aa09d99bf3bbce6067.png,还需要考虑到它的时序上下文afb5bc60b718cdbaa286a9a60d3cf8ef.png。其中,时序上下文可以被分文局部的时序上下文和全局的时序上下文。为了这个生成过程的高效性,校准权重基于帧描述子(frame descriptor)e83dee7938c83b95596d1d6914326e40.png而不是帧特征来进行生成。在帧描述子的基础上,局部的时序上下文通过两个1D卷积进行完成:

1f735d48c85ceb9d2abcedeb471187eb.png

全局的上下文ca7804bd19eed4d07a8469f08dcc3700.png则是通过一个线性映射(FC)叠加到帧描述子上:

a910857363afba1ece87b9161da06816.png

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第3张图片

相对于已有的动态卷积方法,为了能更好地利用预训练的权重,作者精心设计了TAdaConv校准权重的初始化,以保证在初始状态下,TAdaConv完全保留预训练的权重。具体地,在校准权重生成函数初始化的时候,最后一层1D卷积的权重被初始化为全零,并且加上了一个1以保证全1的输出:

8e24fd9ee3e8d4775ce586497f3f918d.png

这样在初始状态下,动态卷积的权重763932f0fab6bb7cffa05dfac1400c0e.png与预训练的载入的权重c735ee9f31b3d992993c16a17b3d530e.png相同。

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第4张图片

对比(2+1)D Conv,TAdaConv在操作层面和模型层面均有明显的计算量和参数优势。

此外,作者还基于平均池化提出了一种时序信息聚合的方式:

f30eb3540834aa13066a7bf5207271d3.png

      04      

实验

4.1 假设验证

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第5张图片

对比不同的校准权重,作者验证放松时序不变性有益于时序建模,动态校准权重比可学习校准权重更好,以及TAdaConv的校准方式性能最优。

4.2 Plug-in evaluation

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第6张图片

将TAdaConv插入已有的视频分类模型中,可以在Kinetics-400上提升约1.3%,在Something-Something-V2上提升约2.8%

4.3 消融实验

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第7张图片

校准权重的生成中,同时考虑局部和全局的时空上下文的校准方式性能最佳,在此基础上加入时序信息的聚集,可以在基线TSN的基础上达到31.8%的提升

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第8张图片

相比已有的视频模型,TAda2D和TAdaConvNeXt达到了最优的性能和计算量的tradeoff。

4.4 Action classification

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第9张图片

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第10张图片

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第11张图片

4.5 Action localization

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第12张图片

      05      

总结

本文作者提出了时序自适应卷积(TAdaConv),基于局部和全局时序上下文动态地为每一帧的卷积权重进行调整。TAdaConv均可以独立构建网络,也可以作为即插即用的操作来提升网络时序建模的能力。在动作识别和定位任务上,TAda2D和TAdaConvNeXt展现了优越的时序推理性能。

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第13张图片

END

欢迎加入「视频理解交流群备注:理解

ICLR 2022 TAdaConv:空间卷积也能进行时序推理,高效的视频理解模型TAdaConvNeXt出炉!..._第14张图片

你可能感兴趣的:(卷积,python,机器学习,人工智能,深度学习)