YOLOV5/YOLOV8改进:CVPR 2023 | 基于级联分组注意力模块的全新实时网络架构模型 EfficientViT,有效涨点
视觉变压器因其较高的模型性能而取得了巨大的成功。然而,它们显著的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在本文中,我们提出了一种被称为高效振动的高速视觉变压器。我们发现,现有的变压器模型的速度通常受到内存低效操作的限制,特别是在MHSA中的张量重塑和元素级函数。因此,我们设计了一个新的具有夹层布局的构建块,即在有效的FFN层之间使用单一内存绑定的MHSA,在提高内存效率的同时提高了信道