Time Is MattEr: Temporal Self-supervision for Video Transformers论文总结

Time Is MattEr: Temporal Self-supervision for Video Transformers

时间很重要,视频Transformer中的时序自监督

研究问题:

​ 最近,基于Transformer的架构设计在视频任务中被广泛探索,因为它们能够捕获输入序列的长期依赖性。理解视频的时间动态性是更好地学习视频表示的一个重要方面。本论文研究的问题是现有的基于Transformer的视频模型架构是否能够完全捕捉视频中的时间动态。

​ 本文作者观察到视频Transformer经常以高置信度正确预测视频动作,即使输入的视频帧是随机打乱的。随着模型层数加深,视频Transformer不能捕获视频帧的时间顺序。这些观察表明,最近的视频Transformer很可能在学习空间动态方面存在偏差,没有很好地学习时间动态性。

本文贡献:

1.我们设计了一个简单有效的帧级和token级的自监督任务,命名为TIME(TIME Is MattEr),用于更好地学习时间动态的视频模型。

  • 首先,我们训练模型学习两个框架级别的任务,以消除从空间动态中学习到的虚假相关性

    • 我们通过分配正确的帧顺序作为自监督标签来预测视频帧的时间顺序,将时间信息逐帧保存在视频帧中
    • 同时训练视频模型,使其在输入视频不包含正确的时间顺序时(随机打乱的视频帧),不能输出高置信度的预测。
  • 此外,我们使用token级任务训练模型,通过预测连续帧中视频标记的时间流方向来增强与时间动态的相关性。

  • 在各种视频动作识别任务中,我们证明了所提出方法的有效性,以及与最先进的视频Transformer的兼容性。

2.通过广泛的实验,本文强调了在视觉Transformer上,对于去偏时间或空间动态的虚假相关性的重要性。

3.值得注意的是,该方案可以以插件方式应用于任何视频Transformer,并有利于各种视频下游任务,包括不需要额外人工标注监督的动作识别,也可以扩展到图像领域,以减轻背景偏差。

你可能感兴趣的:(时序动作定位,深度学习,人工智能,计算机视觉)