Masked Autoencoders Are Scalable Vision Learners 2021-11-13
ViT作为Backbone,用类似BERT的方式进行自监督预训练,通过随机遮盖大部分patch让encoder更好地“理解”图片。重点以及和BEIT的区别其实把BERT模型搬到视觉领域,也已经有之前的一篇工作BEIT了。而且BEIT中也使用了AutoEncoder,但是和MAE的区别是,这里的AE是作为一个tokenizer使用,而下面的Transformer重现的也是token而不是原图。BEI