视觉模型 ConvNeXt V2,结合纯卷积与MAE

出品人:Towhee 技术团队 王翔宇、顾梦佳

近年来以 ConvNeXt 为代表的现代 ConvNets 在各种视觉场景中都表现出了强大的性能。虽然这些模型最初是为使用 ImageNet 标签进行监督学习而设计的,但它们也可能受益于自监督学习技术,例如掩码自动编码器 (MAE) 。为了更好地结合ConvNeXt 和 MAE,ConvNeXt V2 提出了一个改进的网络架构,将全局响应归一化 (GRN) 层添加到 ConvNeXt 架构中以增强通道间特征竞争。它显着提高了纯 ConvNet 在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割。

视觉模型 ConvNeXt V2,结合纯卷积与MAE_第1张图片

FCMAE framework

ConvNeXt V2 将 ConvNeXt 作为骨干网络,成功在卷积网络中避免从遮掩的区域复制粘贴信息。它将可见的像素点看作了一个图像序列,用类似于3D视觉中的稀疏卷积来进行处理。另外,模型选择了一个轻量的ConvNeXt模块。为了重建目标,ConvNeXt V2 使用了MSE来计算目标图像,该损失在被遮掩区域进行计算。

相关资料:

代码地址:https://github.com/facebookre...
论文链接:https://arxiv.org/abs/2301.00...
更多资料:https://zhuanlan.zhihu.com/p/...

你可能感兴趣的:(计算机视觉)