YoloV8改进策略:取FastViT之精华融合到YoloV8,打造更加强大的YoloV8

摘要

FastViT是一种混合ViT架构,它通过引入一种新型的token混合运算符RepMixer来达到最先进的延迟-准确性权衡。RepMixer通过消除网络中的跳过连接来降低内存访问成本。FastViT进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经验表明这些选择对延迟的影响最小。实验结果表明,FastViT在移动设备上的速度比最近的混合Transformer架构CMT快3.5倍,比EfficientNet快4.9倍,比ConvNeXt快1.9倍。在相似的延迟下,FastViT在ImageNet上的Top-1精度比MobileOne高出4.2%。此外,FastViT模型能够较好的适应域外和破损数据,相较于其它SOTA架构具备很强的鲁棒性和泛化性能。

YoloV8改进策略:取FastViT之精华融合到YoloV8,打造更加强大的YoloV8_第1张图片

FastViT:一种使用结构重新参数化的快速混合视觉变换器

论文:https://arxiv.org/pdf/2303.14189v1.pdf

代码链接:https://github.com/apple/ml-fastvit

最近,Transformer和卷积设计的融合使得模型的准确性和效率得到了稳步提高。在这项工作中,我们引入了FastViT,这是一种混合视觉Transformer架构,实现了最新的延迟-准确率权衡。为此,我们引入了一种新型的令牌混合操作符RepMixer,这是FastViT的一个构建块,它使用结构重参数化来降低网络中的跳连接,从而降低内存访问成本。我们进一步应用训练时过参数化和大核卷积来提高准确性,并从经验上证明这些选择对延迟的影响

你可能感兴趣的:(YOLO)