关注公众号,发现CV技术之美
详细信息如下:
论文链接:https://arxiv.org/abs/2203.12602
项目链接:https://github.com/MCG-NJU/VideoMAE
01
摘要
为了在相对较小的数据集上实现卓越的性能,通常需要在超大规模数据集上对视频Transformer进行预训练。在本文中,作者证明了视频掩蔽自动编码器(video masked autoencoders,VideoMAE)是自监督视频预训练(SSVP)的数据有效学习方式。
受到ImageMAE的启发,作者在本文中提出定制视频数据的掩蔽和重建。这些简单的设计对于克服视频重建过程中时间相关性造成的信息泄漏是有效的。通过实验,作者获得了关于SSVP的三个重要发现:
极高比例的掩蔽率(即90%-95%)仍然可以产生良好的VideoMAE性能。时间上冗余的视频内容能够实现比图像更高的掩蔽率。
VideoMAE在非常小的数据集(即大约3k-4k视频)上取得了非常好的结果,而无需使用任何额外数据。这部分归因于视频重建的挑战性任务,以加强高级结构学习。
VideoMAE表明,对于SSVP,数据质量比数据量更重要。预训练数据集和目标数据集之间的域迁移是SSVP中的重要问题。
值得注意的是,在Kinects-400上,作者使用vanilla ViT主干的VideoMAE可以实现83.9%,在Something-Something V2上可以实现75.3%,在UCF101上可以实现90.8%,在HMDB51上可以实现61.1%,而无需使用任何额外数据。
02
Motivation
Transformer在自然语言处理方面取得了重大进展。视觉Transformer还改进了一系列计算机视觉任务,包括图像分类、目标检测、语义分割和视频识别。线性投影的图像/视频token上的多头自注意能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制,可以有效地减少inductive bias。
训练有效的视觉Transformer(VIT)通常依赖于大规模的监督数据集。最初,预训练ViTs通过使用数以亿计的标注图像来实现良好的性能。对于视频Transformer,它们通常来自基于图像的Transformer,并且严重依赖于大规模图像数据的预训练模型。之前关于从头开始训练视频Transformer的试验产生了非常好的结果(具有强inductive bias的MViT除外)。
因此,学习到的视频Transformer自然会受到基于图像的模型的影响,如何无需使用任何预训练的模型或额外的图像数据,有效地训练一个普通的视频视觉Transformer仍然是一个挑战。此外,与图像数据集相比,现有视频数据集相对较小,这进一步增加了从头开始训练视频Transformer的难度。同时,自监督学习在使用大规模图像数据集时表现出了显著的性能。当被转移到下游任务时,学习到的表示优于通过监督学习得到的表示。作者希望这种自监督学习范式可以为解决视频Transformer训练的挑战提供一个有希望的解决方案。
继NLP和图像中屏蔽自动编码(masked autoencoding)的成功之后,作者提出了一种新的自监督视频预训练(SSVP)方法,称为视频屏蔽自动编码器(Video Masked Autoencoder,VideoMAE)。本文的VideoMAE继承了屏蔽随机立方体(即时间和空间维度同时屏蔽)并重建缺失立方体的简单方案。然而,视频的额外时间维度使其不同于masked模型中的图像。
首先,视频画面捕获在时间上是非常密集的(如通常30fps),语义随时间变化缓慢。这种时间冗余性会增加从时空邻域中恢复丢失像素的风险,而缺乏高层次的理解。此外,视频可视为静态外观的时间演化,帧之间存在对应关系。除非考虑特定的掩蔽策略,否则这种时间相关性可能导致重建过程中的信息泄漏。从这个意义上讲,对于每个掩蔽立方体,很容易在相邻帧中找到相应的未掩蔽副本。此属性将使学习的模型识别一些难以推广到新场景的“快捷”特征。为了使视频掩蔽建模更加有效,作者需要在VideoMAE设计中缓解上述问题。
具体而言,在本文中,作者在VideoMAE中提出了两种设计,以有效地执行视频中掩蔽和重建的预训练任务。首先,由于时间冗余,作者使用极高的掩蔽率从下采样片段中删除掩蔽立方体。这种简单的策略不仅有效地提高了预训练性能,而且由于采用了非对称的编解码结构,大大降低了计算成本。
其次,为了考虑时间相关性,作者设计了一种简单而有效的tube masking策略,这有助于减少重建过程中的信息泄漏风险。借助VideoMAE中的这两个核心设计,本文方法能够在相对较小的视频数据集上成功地训练vanilla ViT主干,如Something-Something、UCF101和HMDB51,在没有额外数据的情况下,其表现明显优于之前的SOTA水平。
总之,本文的主要贡献有三个方面:
本文提出了第一个屏蔽视频建模框架,该框架在相对较小的视频数据集上对SSVP表现良好。为了解决视频数据中的时间冗余性和相关性导致的信息泄漏问题,作者提出了两种核心设计,即极高的掩蔽率和tube掩蔽,这两种设计是视频MAE成功的关键。
与NLP和掩蔽建模的结果一致,本文的VideoMAE表明,这种简单的掩蔽和重建策略为自监督的视频预训练提供了一个很好的解决方案。使用本文的VideoMAE预训练的模型显著优于那些从头开始训练或使用对比学习方法预训练的模型。
作者获得了在NLP和图像中可能被忽略的掩蔽建模的额外重要发现。(1) 本文的研究结果表明,VideoMAE是一个数据效率很高的学习方案,只需3.5k视频就可以成功地进行训练。(2) VideoMAE表明,当源数据集和目标数据集之间存在域迁移时,SSVP的数据质量比数量更重要。
03
方法
ImageMAE使用非对称编码器-解码器架构执行掩蔽和重建任务。输入图像首先划分为大小为16×16的规则非重叠patch,每个patch用token嵌入表示。然后,以高掩蔽率(75%)随机掩蔽token子集,并且仅剩下的token被馈入Transformer编码器。最后,将浅层解码器放置在编码器的可见token和可学习掩蔽token的顶部,以重建图像。损失函数是像素空间中归一化掩蔽token和token令牌之间的均方误差(MSE)损失:
其中是token索引,是掩蔽token集,是输入图像,是重建图像。
视频中经常会捕获帧。语义随时间变化缓慢。作者观察到,连续帧是高度冗余的,如上图所示。这个特性导致了掩蔽视频自动编码中的两个关键问题。首先,如果在预训练保持原始的时间帧率,那么效率就会降低。这将促使作者在掩蔽建模中更多地关注静态或慢速运动。其次,时间冗余性大大稀释了运动表示。这将使重建缺失像素的任务在正常掩蔽率(例如,50%到75%)下不存在困难。编码器主干无法有效捕获运动表示。
视频可视为静态外观的时间扩展,因此相邻帧之间存在固有的对应关系。这种时间相关性可能会增加掩蔽和重建中的信息泄漏风险。例如,如上图所示,可以通过在普通随机掩蔽或帧掩蔽下在相邻帧中找到相应的未掩蔽patch来重建掩蔽patch。在这种情况下,这可能会导致视频MAE学习低级的时间对应关系,而不是高级信息,例如对内容的时空推理。为了避免这种行为,需要提出一种新的掩蔽策略,使重建更具挑战性,并鼓励时空结构表征的有效学习。
为了解决视频掩蔽建模中的上述问题,作者在VideoMAE中进行了定制设计,总体流程如上图所示。
根据以上对连续帧时间冗余性的分析,作者提出使用跨步时间采样策略来执行更有效的视频预训练。首先从原始视频V中随机抽取一个由t个连续帧组成的视频片段。然后,作者使用时间采样将片段压缩为T帧,每个帧包含H×W×3个像素。在实验中,在Kinetics和Something-Something数据集中,步幅τ分别设置为4和2。
作者在VideoMAE中采用了联合时空立方体嵌入,将每个大小为2×16×16的立方体视为一个token嵌入。因此,嵌入层获得个3D token,并将每个token映射到通道尺寸D。这种设计可以降低输入的时空维度,有助于缓解视频中的时空冗余。
为了缓解之前讨论的时间相关性带来的信息泄漏,作者提出了temporal tube masking机制,用于视频中的掩蔽自动编码器预训练。temporal tube masking强制mask在整个时间轴上扩展,即,不同的帧共享相同的masking map。从数学上讲,tube masking机制可以表示为和不同的时间t共享相同的值。利用这种机制,掩蔽立方体的时间邻域总是被mask的。这将鼓励本文的VideoMAE通过高级语义进行推理,以恢复这些完全缺失的时空立方体。这种简单的策略可以缓解屏蔽视频建模中的信息泄漏问题。
时间冗余性是影响视频设计的关键因素。作者发现,与ImageMAE相比,VideoMAE有利于极高的掩蔽比率 (例如90% 至95%)。视频信息密度比图像低得多,作者猜想高比率会增加重建难度。
由于上面提到的高掩蔽率比例,只剩下少数token作为编码器的输入。为了更好地捕获剩余token中的高级时空信息,作者使用vanilla ViT主干,并采用联合时空注意。因此,所对token都可以在多头自注意层中相互交互。编码器和解码器的具体架构设计如上表所示。联合时空注意机制的二次复杂性是一个计算瓶颈,而作者设计的极高掩蔽率通过仅将未掩蔽的token(例如10%)放入编码器来缓解此问题。
04
实验
轻量级解码器是VideoMAE中的一个关键组件。作者在上表中进行了不同深度的实验。
作者将不同的掩蔽策略与75%的tube掩蔽进行了比较。如上表所示,普通随机掩蔽和帧掩蔽实现的性能低于tube掩蔽。当掩蔽率增加到90%时,性能从67.3%提高到69.3%。作者认为,这些设计通过强制网络学习有用的特征,使VideoMAE成为一项具有挑战性的任务。
从上表中,可以发现:首先,如果只使用视频片段中的中心帧作为目标,结果会大大降低。连续16帧的结果明显低于本文的下采样clip(53.2%vs.69.3%)。作者还尝试从下采样的16帧重建连续的32帧,但结果稍差。
作者在上表中比较了不同的预训练策略。与之前的试验类似,从头开始训练视频transformer会在这个运动敏感数据集上产生不太好的结果。
在大规模图像数据集(ImageNet-21K)上进行预训练后,视频transformer的准确率从32.6%提高到61.4%。使用在ImageNet-21K和Kinetics上预训练的模型,可进一步将精确度提高到64.8%。本文的VideoMAE可以在不使用任何额外数据的情况下从视频本身有效地训练视频transformer,并实现最佳性能69.3%。
作者在三个数据集上进行了预训练,并在SS V2数据集上进行微调和测试,结果如上表所示。
上表包含损失函数的消融研究。作者发现,与L1损失和smooth L1损失相比,MSE损失可以获得更高的结果。因此,作者默认使用MSE损失。
作者在不同数据集上用流行的自监督预训练方法进行测试,结果如上表所示,可以看出本文提出的VideoMAE有明显的性能优势。
作者在上表中比较了VideoMAE预训练和MoCo v3预训练的效率。高比率的屏蔽自动编码任务更具挑战性,因此需要更多的训练时间(800 vs.300)。由于VideoMAE中的非对称编码器-解码器和极高的掩蔽率,本文方法的预训练时间比MoCo v3要短得多(19.5小时vs.61.7小时)。
上图展示了重建的示例可视化。作者发现,即使在高掩蔽率下,VideoMAE也可以产生令人满意的重建结果。这意味着本文的VideoMAE能够学习有用的表示,以捕获视频中的整体时空结构。
在VideoMAE中,一个核心设计是极高的掩蔽率。作者在Kinetics-400和SomethingSomething V2数据集上对此设计进行了调查。结果如上图所示。
为了进一步研究VideoMAE在表征学习中的泛化能力,作者将学习到的VideoMAE从Kinetics-400转换为Something V2、UCF101和HMDB51。结果如上表所示,作者将其与MoCo v3预训练方法进行了比较。本文的VideoMAE预训练的模型比MoCo v3预训练的模型要好,这表明VideoMAE学习了更多的可迁移表示。
上表展示了在Something-Something V2和Kinetics-400数据集上,本文方法和SOTA方法的对比结果。
05
总结
在本文中,作者提出了一种简单且数据高效的视频Transformer预训练自监督学习方法(VideoMAE)。本文的VideoMAE引入了两种关键的设计,即极高的掩蔽率和tube掩蔽策略,以使视频重建任务更具挑战性。更有挑战性的预训练任务将鼓励VideoMAE学习更多有用的特征,并缓解信息泄漏问题。实验结果表明,这种简单的算法适用于不同大小数量的视频数据集。只能通过数千个视频片段来学习有效的VideoMAE,这对于可用数据有限的场景具有重要的实用价值。
[1]https://arxiv.org/abs/2203.12602
[2]https://github.com/MCG-NJU/VideoMAE
END
欢迎加入「视频」交流群备注:Vid