字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!...
关注公众号,发现CV技术之美▊写在前面语言Transformer的成功主要归功于maskedlanguagemodeling(MLM)的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了maskedimagemodeling(MIM),并指出了使用语义上有意义的视觉标记器(visualtokenizer)的优势和挑战。作者提出了一个自监督的框架iBOT,它可以通过在线标记