MobileNetV4(2024 ECCV)

论文标题 MobileNetV4: Universal Models for the Mobile Ecosystem
论文作者 Danfeng Qin, Chas Leichner, Manolis Delakis, Marco Fornoni, Shixin Luo, Fan Yang, Weijun Wang, Colby Banbury, Chengxi Ye, Berkin Akin, Vaibhav Aggarwal, Tenghui Zhu, Daniele Moro, and Andrew Howard
发表日期 2024年11月10日
GB引用 > Danfeng Qin, Chas Leichner, Manolis Delakis, et al. MobileNetV4: Universal Models for the Mobile Ecosystem[J]. Springer, 2024: 78-96.
> [1]Danfeng Qin, Chas Leichner, Manolis Delakis, et al. MobileNetV4: Universal Models for the Mobile Ecosystem[J]. Lecture Notes in Computer Science, 2025: 78-96.
DOI https://doi.org/10.1007/978-3-031-73661-2_5

论文地址:https://arxiv.org/pdf/2404.10518

MobileNetV4(2024 ECCV)_第1张图片

摘要

本文介绍了MobileNetV4(MNv4),一种为移动设备设计的高效统一架构模型。MNv4引入了通用倒置瓶颈(UIB)搜索块,整合了倒置瓶颈(IB)、ConvNext、前馈网络(FFN)以及新颖的额外深度卷积(ExtraDW)变体。同时,MNv4提出了优化的神经架构搜索(NAS)方法,显著提升了搜索效率。这些改进使得MNv4在不同硬件平台如CPU、DSP、GPU和加速器上表现出几乎一致的性能,优于其他测试模型。此外,MNv4通过融合新的蒸馏技术,在保持低延迟的同时实现了高精度。

全文摘要

本文介绍了最新的MobileNetV4(MNv4)模型,该模型具有统一和灵活的设计,包括Inverted Bottleneck、ConvNext、Feed Forward Network和Extra Depth-wise等结构。此外,还提出了Mobile MQA注意力块和优化的神经架构搜索方法,使得MNv4模型在移动CPU、DSP、GPU以及加速器上表现出色,并且实现了性能的均匀性。最后,作者还介绍了一种新的蒸馏技术,可以进一步提高模型的准确性。通过这些方法,MNv4-Hybrid-Large模型在ImageNet-1K数据集上的准确率达到了87%,并且在Pixel 8 EdgeTPU上的运行时间为3.8毫秒。

MobileNetV4 (MNv4) 介绍:提出了最新一代的MobileNets,旨在为移动设备提供高效且通用的神经网络架构设计。

Universal Inverted Bottleneck (UIB):核心创新之一,UIB搜索块统一并灵活地结合了多种高效的网络结构,如Inverted Bottleneck (IB)、ConvNext、Feed Forward Network (FFN) 和Extra Depthwise (ExtraDW) 变体。

Mobile MQA 注意力机制:为移动加速器定制的注意力机制,相比传统的多头注意力机制,Mobile MQA 在保持精度的同时显著提高了推理速度。

优化的神经架构搜索 (NAS):通过改进的NAS方法,提高了搜索效率,并有助于创建更大、更高效的模型。

Pareto最优性:MNv4模型在多种硬件平台上(包括CPU、DSP、GPU和专业加速器)实现了Pareto最优性能。

新颖的蒸馏技术:引入了一种新的数据集混合和类平衡的蒸馏技术,进一步提升了模型的准确性。

实验结果:展示了MNv4在ImageNet分类和COCO对象检测任务上的性能,证明了其在不同硬件上的高效性和准确性。

Roofline模型分析:使用Roofline模型分析了MNv4的性能,展示了其在不同硬件上的效率和瓶颈。

结论:MNv4通过其创新的架构和技术,实现了在移动设备上的高效率和高准确性,推动了移动计算机视觉技术的发展。

研究问题

如何设计一种能够在多种移动设备上实现高效且准确的神经网络模型,特别是在平衡计算能力和内存带宽方面?

研究方法

实验研究: 通过引入Universal Inverted Bottleneck (UIB)搜索块和优化的神经架构搜索(NAS)配方,设计出一系列在多种硬件平台上表现最优的MobileNetV4模型。

混合方法研究: 结合了卷积神经网络(CNN)和注意力机制,通过使用改进的NAS算法和新的注意力模块Mobile MQA,提高了模型的计算效率和准确性。

现象学研究: 通过对现有模型和硬件的广泛相关性分析,发现一组组件和参数,确保了成本模型(延迟预测)与各种设备之间高相关性,同时接近帕累托前沿。

系统分析: 利用屋顶线模型(Roofline Model)来估计给定工作负载的性能,并分析算法的延迟,以优化硬件上的一系列瓶颈问题。

研究思路

论文通过以下几个关键技术和策略来解决移动设备上神经网络的效率和准确性问题:

  1. Universal Inverted Bottleneck (UIB) 搜索块:引入了一个统一且灵活的UIB结构,它通过可选的深度卷积来扩展MobileNetV2中的倒置瓶颈块。UIB结合了多种现有的微架构,如IB、ConvNext、FFN,并引入了额外的深度卷积变体(ExtraDW),提供了空间和通道混合的灵活性,可选的扩展感受野,以及增强的计算效率。
  2. Mobile MQA 注意力块:为了进一步提升移动加速器上的性能,论文提出了一个专门为移动硬件优化的注意力机制,即Mobile MQA。它通过共享键和值来简化多头注意力,从而显著减少了内存访问需求,提高了操作强度(Operational Intensity),即算术操作与内存访问的比率。
  3. 优化的神经架构搜索 (NAS) 配方:通过改进的NAS方法,提高了MNv4搜索的效率,并促进了比以往更大的模型的创建。这包括两阶段搜索策略,首先粗略确定最优滤波器大小,然后在细粒度上搜索UIB的深度卷积层配置。
  4. Pareto最优性:通过整合UIB、Mobile MQA和改进的NAS配方,提出了一系列在多种硬件平台上(包括CPU、DSP、GPU和专门的加速器)几乎普遍Pareto最优的MNv4模型。
  5. 新颖的蒸馏技术:为了进一步提高准确性,论文引入了一种新的蒸馏技术,通过动态数据集混合和使用JFT数据增强来提高学生模型的性能。这种技术结合了不同数据集和增强策略,扩展了增强图像空间,增加了难度和多样性,从而提高了学生模型的性能。

硬件无关的帕累托效率

屋顶线模型(The Roofline Model):为了使模型具有普遍的效率,它必须在硬件目标上表现良好,这些硬件目标具有不同的瓶颈限制了模型的表现。这些瓶颈主要由硬件的峰值计算吞吐量和峰值内存带宽决定。

为此,我们使用Roofline模型[49],它估计给定工作负载的性能,并预测其是否是内存瓶颈或计算瓶颈。简而言之,它抽象掉特定硬件细节,只考虑工作负载的操作强度 ( L a y e r M A C s i / ( WeightBytes i + ActivationBytes i ) ) (\mathrm{LayerMACs}_{i}/(\text{WeightBytes}_{i}+\text{ActivationBytes}_i)) (LayerMACsi/(WeightBytesi+ActivationBytesi))与硬件处理器和内存系统的理论极限之间的关系。由于内存和计算操作大致同时发生,所以较慢的一个大约决定了延迟瓶颈。将Roofline模型应用于以$ i $索引层的人工神经网络,我们可以计算模型推理延迟,ModelTime,如下:

M o d e l T i m e = ∑ i max ⁡ ( M A C T i m e i , M e m T i m e i ) \mathrm{ModelTime}=\sum_i\max(\mathrm{MACTime}_i,\mathrm{MemTime}_i) ModelTime=imax(MACTimei,MemTimei)

M A C T i m e i = L a y e r M A C s i P e a k M A C s , M e m T i m e i = WeightBytes i + ActivationBytes i P e a k M e m B W ( 1 ) \mathrm{MACTime}_i=\frac{\mathrm{LayerMACs}_i}{\mathrm{PeakMACs}},\quad\mathrm{MemTime}_i=\frac{\text{WeightBytes}_i+\text{ActivationBytes}_i}{\mathrm{PeakMemBW}} \quad(1) MACTimei=PeakMACs

你可能感兴趣的:(论文阅读,学习,网络,计算机视觉,笔记)