掩码自编码器(MAE)是时空学习者

原文:Feichtenhofer, Christoph, et al. "Masked Autoencoders As Spatiotemporal Learners." arXiv preprint arXiv:2205.09113 (2022).

源码:https://github.com/facebookresearch/SlowFast

本文将掩码自编码器(MAE)扩展到了视频的时空表示学习上面。我们随机掩码视频中的时空patches,并训练一个自编码器重建它们。有趣的是,我们的MAE方法可以在几乎没有时空归纳偏置的情况下学到强大的表示,并且随机掩码表现最好。我们观察到,视频的最佳掩码率高达90%,而图像的最佳掩码率为75%。高掩码率将大大提高模型的训练速度。我们报告了在几个挑战性的视频数据集上的结果。我们观察到,MAE可以大大超过有监督的预训练。我们还报告了在现实世界、未经整理的Instagram数据上令人鼓舞的结果。我们的研究表明,BERT、MAE等掩码自编码通用框架可以作为统一的表示学习方法。

掩码自编码器(MAE)是时空学习者_第1张图片

图1:掩码自编码器是时空学习者。我们随机掩码了大量的时空patches子集(例如90%)。编码器对可见的patches子集进行编码。然后,我们使用一个小型解码器对所有的编码patches和掩码tokens进行解码,以重建输入视频。除了patch嵌入和位置嵌入之外,编码器、解码器和掩码策略都没有任何时空归纳偏置。

掩码自编码器(MAE)是时空学习者_第2张图片

图2:在Kinetics-400验证集上的可视化结果(掩码率为90%)。每个样本显示原始视频(上)、掩码视频(中)和MAE重建视频(下)。该模型重建原始像素。视频大小为16×224×224,时空patch大小为2×16×16。每个样本有8×14×14=1568个tokens,其中156个是可见的。

掩码自编码器(MAE)是时空学习者_第3张图片

图3:图2中相同预训练模型的可视化结果,但掩码率为95%。

掩码自编码器(MAE)是时空学习者_第4张图片

图4:掩码采样策略。(a)时空不可知的随机采样。(b)“tube”掩码,仅空间随机采样,广播到所有时间步。(c)“frame”掩码,仅时间随机采样,广播到所有空间位置。(d)“cube”掩码,在时空中block-wise采样,去除大区域。在本图中,T×H×W为8×14×14;绿色tokens被保留,其他tokens被掩码。

掩码自编码器(MAE)是时空学习者_第5张图片

图5:MAE预训练+微调比从头开始训练更准确、更快。这里的x轴是训练时间(使用128个A100 GPU),y轴是在Kinetics-400验证集上的1-view精度。表格显示了最终的精度。这里使用的模型是ViT-Large。

掩码自编码器(MAE)是时空学习者_第6张图片

表1:MAE中密集编码器和稀疏编码器的训练时间的比较。

掩码自编码器(MAE)是时空学习者_第7张图片

图6:掩码率对模型性能的影响。每个点代表一个完整的预训练+微调实验。

掩码自编码器(MAE)是时空学习者_第8张图片

表2:在Kinetics-400数据集上的消融实验结果。

掩码自编码器(MAE)是时空学习者_第9张图片

表3:预训练数据对模型性能的影响。

掩码自编码器(MAE)是时空学习者_第10张图片

表4:将现实世界的Instagram数据用于MAE的预训练。

掩码自编码器(MAE)是时空学习者_第11张图片

表5:在Kinetics上的实验设置。

掩码自编码器(MAE)是时空学习者_第12张图片

表6:在AVA和SSv2上的实验设置。

掩码自编码器(MAE)是时空学习者_第13张图片

表7:MAE和其他模型在Kinetics-400动作分类任务上的结果比较。

掩码自编码器(MAE)是时空学习者_第14张图片

表8:MAE和其他模型在AVA v2.2动作检测任务上的结果比较。

掩码自编码器(MAE)是时空学习者_第15张图片

表9:MAE和其他模型在SSv2动作分类任务上的结果比较。

掩码自编码器(MAE)是时空学习者_第16张图片

表10:中间微调对模型性能的影响。

掩码自编码器(MAE)是时空学习者_第17张图片

图7:在Kinetics-400验证集上的更多可视化结果(掩码率为90%)。

我们将MAE简单扩展到了视频数据上面。我们得出了一些有趣的观察结果。(i)我们发现,用最小的领域知识或归纳偏置学习强大的表示是可能的。与BERT和MAE类似,视频上的自监督学习可以在统一的框架中进行。(ii)我们的经验表明,掩码率是掩码自编码方法的一个重要因素,其最佳值可能取决于数据的性质(语言、图像、视频等)。(iii)我们报告了在真实世界、未经整理的Instagram数据上令人鼓舞的结果。尽管取得了这些结果,但仍然存在一些悬而未决的问题。我们研究的视频数据规模比对应的语言数据规模要小几个数量级。虽然我们的方法大大提高了自监督学习的效率,但高维视频数据仍然是模型扩展的主要挑战。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

关注“多模态人工智能”公众号^_^↑

你可能感兴趣的:(机器学习,人工智能,深度学习)