Masked Autoencoders Are Scalable Vision Learners 2021-11-13

ViT作为Backbone, 用类似BERT的方式进行自监督预训练,通过随机遮盖大部分patch让encoder更好地“理解”图片。

重点以及和BEIT的区别

其实把BERT模型搬到视觉领域,也已经有之前的一篇工作BEIT了。
而且BEIT中也使用了AutoEncoder, 但是和MAE的区别是,这里的AE是作为一个tokenizer使用,而下面的Transformer重现的也是token而不是原图。


BEIT

除此之外,MAE的最主要的重点还有:

  • Encoder只接收可见的(没有被mask掉的)带位置信息的patch,
    而mask的位置会送到decoder中,和编码后的可见patch一起用于重建。
  • Mask覆盖率高:75%, 这是因为比起文字,图像存在很高程度的信息冗余。而且高覆盖率可以加快训练速度(只用处理25%的patch),同时促使encoder加深对图片的理解。

细节上翻译和解读都很多了,其实这篇论文原文也并不晦涩,就偷懒不写啦。

神经网络模型表现的提升很大程度上依赖于数据, 自监督一个优势在于可以用更低的成本吸收更多的数据。大家对MAE的评论褒贬不一,有人认为这是视觉领域一个全新的范式,也有人认为,这个就是BERT换了一个战场,而且类似的之前也有人写过了。无论如何MAE的结果就是要更好,可以预见的是,有一大波相关论文已经在路上了~

参考

MAE Are Scalable Vision Learners
自监督综述
BEIT

你可能感兴趣的:(Masked Autoencoders Are Scalable Vision Learners 2021-11-13)