论文标题 | MobileNetV4: Universal Models for the Mobile Ecosystem |
---|---|
论文作者 | Danfeng Qin, Chas Leichner, Manolis Delakis, Marco Fornoni, Shixin Luo, Fan Yang, Weijun Wang, Colby Banbury, Chengxi Ye, Berkin Akin, Vaibhav Aggarwal, Tenghui Zhu, Daniele Moro, and Andrew Howard |
发表日期 | 2024年11月10日 |
GB引用 | > Danfeng Qin, Chas Leichner, Manolis Delakis, et al. MobileNetV4: Universal Models for the Mobile Ecosystem[J]. Springer, 2024: 78-96. > [1]Danfeng Qin, Chas Leichner, Manolis Delakis, et al. MobileNetV4: Universal Models for the Mobile Ecosystem[J]. Lecture Notes in Computer Science, 2025: 78-96. |
DOI | https://doi.org/10.1007/978-3-031-73661-2_5 |
论文地址:https://arxiv.org/pdf/2404.10518
本文介绍了MobileNetV4(MNv4),一种为移动设备设计的高效统一架构模型。MNv4引入了通用倒置瓶颈(UIB)搜索块,整合了倒置瓶颈(IB)、ConvNext、前馈网络(FFN)以及新颖的额外深度卷积(ExtraDW)变体。同时,MNv4提出了优化的神经架构搜索(NAS)方法,显著提升了搜索效率。这些改进使得MNv4在不同硬件平台如CPU、DSP、GPU和加速器上表现出几乎一致的性能,优于其他测试模型。此外,MNv4通过融合新的蒸馏技术,在保持低延迟的同时实现了高精度。
本文介绍了最新的MobileNetV4(MNv4)模型,该模型具有统一和灵活的设计,包括Inverted Bottleneck、ConvNext、Feed Forward Network和Extra Depth-wise等结构。此外,还提出了Mobile MQA注意力块和优化的神经架构搜索方法,使得MNv4模型在移动CPU、DSP、GPU以及加速器上表现出色,并且实现了性能的均匀性。最后,作者还介绍了一种新的蒸馏技术,可以进一步提高模型的准确性。通过这些方法,MNv4-Hybrid-Large模型在ImageNet-1K数据集上的准确率达到了87%,并且在Pixel 8 EdgeTPU上的运行时间为3.8毫秒。
MobileNetV4 (MNv4) 介绍:提出了最新一代的MobileNets,旨在为移动设备提供高效且通用的神经网络架构设计。
Universal Inverted Bottleneck (UIB):核心创新之一,UIB搜索块统一并灵活地结合了多种高效的网络结构,如Inverted Bottleneck (IB)、ConvNext、Feed Forward Network (FFN) 和Extra Depthwise (ExtraDW) 变体。
Mobile MQA 注意力机制:为移动加速器定制的注意力机制,相比传统的多头注意力机制,Mobile MQA 在保持精度的同时显著提高了推理速度。
优化的神经架构搜索 (NAS):通过改进的NAS方法,提高了搜索效率,并有助于创建更大、更高效的模型。
Pareto最优性:MNv4模型在多种硬件平台上(包括CPU、DSP、GPU和专业加速器)实现了Pareto最优性能。
新颖的蒸馏技术:引入了一种新的数据集混合和类平衡的蒸馏技术,进一步提升了模型的准确性。
实验结果:展示了MNv4在ImageNet分类和COCO对象检测任务上的性能,证明了其在不同硬件上的高效性和准确性。
Roofline模型分析:使用Roofline模型分析了MNv4的性能,展示了其在不同硬件上的效率和瓶颈。
结论:MNv4通过其创新的架构和技术,实现了在移动设备上的高效率和高准确性,推动了移动计算机视觉技术的发展。
如何设计一种能够在多种移动设备上实现高效且准确的神经网络模型,特别是在平衡计算能力和内存带宽方面?
实验研究: 通过引入Universal Inverted Bottleneck (UIB)搜索块和优化的神经架构搜索(NAS)配方,设计出一系列在多种硬件平台上表现最优的MobileNetV4模型。
混合方法研究: 结合了卷积神经网络(CNN)和注意力机制,通过使用改进的NAS算法和新的注意力模块Mobile MQA,提高了模型的计算效率和准确性。
现象学研究: 通过对现有模型和硬件的广泛相关性分析,发现一组组件和参数,确保了成本模型(延迟预测)与各种设备之间高相关性,同时接近帕累托前沿。
系统分析: 利用屋顶线模型(Roofline Model)来估计给定工作负载的性能,并分析算法的延迟,以优化硬件上的一系列瓶颈问题。
论文通过以下几个关键技术和策略来解决移动设备上神经网络的效率和准确性问题:
屋顶线模型(The Roofline Model):为了使模型具有普遍的效率,它必须在硬件目标上表现良好,这些硬件目标具有不同的瓶颈限制了模型的表现。这些瓶颈主要由硬件的峰值计算吞吐量和峰值内存带宽决定。
为此,我们使用Roofline模型[49],它估计给定工作负载的性能,并预测其是否是内存瓶颈或计算瓶颈。简而言之,它抽象掉特定硬件细节,只考虑工作负载的操作强度 ( L a y e r M A C s i / ( WeightBytes i + ActivationBytes i ) ) (\mathrm{LayerMACs}_{i}/(\text{WeightBytes}_{i}+\text{ActivationBytes}_i)) (LayerMACsi/(WeightBytesi+ActivationBytesi))与硬件处理器和内存系统的理论极限之间的关系。由于内存和计算操作大致同时发生,所以较慢的一个大约决定了延迟瓶颈。将Roofline模型应用于以$ i $索引层的人工神经网络,我们可以计算模型推理延迟,ModelTime,如下:
M o d e l T i m e = ∑ i max ( M A C T i m e i , M e m T i m e i ) \mathrm{ModelTime}=\sum_i\max(\mathrm{MACTime}_i,\mathrm{MemTime}_i) ModelTime=∑imax(MACTimei,MemTimei)
M A C T i m e i = L a y e r M A C s i P e a k M A C s , M e m T i m e i = WeightBytes i + ActivationBytes i P e a k M e m B W ( 1 ) \mathrm{MACTime}_i=\frac{\mathrm{LayerMACs}_i}{\mathrm{PeakMACs}},\quad\mathrm{MemTime}_i=\frac{\text{WeightBytes}_i+\text{ActivationBytes}_i}{\mathrm{PeakMemBW}} \quad(1) MACTimei=PeakMACs