EfficientFormerV2 加速 ViT,更高效的移动端视觉模型

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型出品人:Towhee 技术团队 顾梦佳

EfficientFormerV2 仿造卷积结构的 MobileNet,对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要,因此 EfficientFormerV2 结合了细粒度联合搜索策略,提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下,其性能在公开的图像数据集 ImageNet 的验证集上能够比 MobileNetV2 高4%。

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型_第1张图片

EfficientFormerV2Architecture

EfficientFormerV2 全面研究了混合视觉主干,并验证了对于端侧更加友好的网络结构设计。此外,在前一个版本的基础上,它进一步提出了在大小和速度上的细粒度联合搜索,并获得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了常规的 ViT 架构。它采用相同卷积核大小的深度可分离卷积替换作为 token mixer的平均池化层,这样既不会带来延迟开销,又能提高性能。此外,EfficientFormerV2 在前馈网络中注入了局部信息建模层,将原来的池化层替换成 BottleNeck 的形式。

相关资料:

你可能感兴趣的:(计算机视觉)