SparK 用稀疏掩码为卷积设计 Bert 预训练

出品人:Towhee 技术团队 顾梦佳

稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法,无需修改主干即可直接在任何卷积网络上,克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它,通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型,无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的卷积模型上进行了实验,结果表明SparK 能够在三个下游任务上以大幅超过最先进的对比学习和基于 Transformers 的掩蔽建模。尤其在目标检测和实例分割任务上,该框架带来的的改进更为显著,证明了所学特征具有强大可迁移性。

Sparse masked modeling with hierarchySparK

确定并克服了将 BERT 式预训练或掩码图像建模的成功扩展到卷积网络 (convnet) 的两个关键障碍:卷积运算无法处理不规则的、随机掩码的输入图像,BERT 预训练的单一尺度性质与 convnet 的层次结构不一致。为了解决第一个问题,SparK 创新地提出将稀疏卷积用于 2D 掩膜建模,并使用稀疏卷积进行编码。它将未屏蔽像素视为 3D 点云的稀疏体素。对于后一个问题,SparK 开发了一个分层解码器来从多尺度编码特征重建图像。为了预训练分层编码器,SparK 框架采用了 UNet 风格的架构来解码多尺度稀疏特征图,其中所有空位置都是充满掩码嵌入。预训练后,只有编码器会被用于下游任务。

相关资料:
代码地址:https://github.com/keyu-tian/...
论文链接:Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
更多资料:北大/字节/牛津提出SparK——卷积网络的BERT设计:稀疏和分层掩码建模

你可能感兴趣的:(计算机视觉)