【第41篇】ConvMAE:Masked Convolution 遇到 Masked Autoencoders

文章目录

  • 摘要
  • 1 简介
  • 2 方法
    • 2.1 MAE的简要回顾
    • 2.2 ConvMAE
    • 2.3 ConvMAE 用于目标检测和语义分割
    • 2.4 ConvMAE 用于视频理解
  • 3 实验
    • 3.1 ImageNet-1K 预训练和微调
    • 3.2 物体检测
    • 3.3 语义分割
    • 3.4 视频理解
    • 3.5 ConvMAE的消融研究
  • 4 相关工作
  • 5 结论

摘要

论文地址:https://arxiv.org/pdf/2205.03892
视觉转换器 (ViT) 已成为各种视觉任务广泛采用的架构。用于特征预训练的掩码自动编码 [2、1、28、55] 和多尺度混合卷积变换器架构 [12、21、49、34、57] 可以进一步释放 ViT 的潜力,从而实现最先进的图像分类、检测和语义分割的艺术表演。在本文中,我们

你可能感兴趣的:(高质量AI论文翻译,深度学习,人工智能,计算机视觉)