Searching for MobileNetV3翻译

(26条消息) SearchingforMobileNetV3-行业报告文档类资源-CSDN文库

探索MobileNetV3

摘要

我们提出了基于互补搜索技术下一代MobileNet,并设计了新的网络结构。通过结合硬件网络架构搜索(NAS)NetAdapt算法,MobileNetV3被调优为移动电话CPU,然后通过新的架构进行改进。本文开始探索自动搜索算法和网络设计如何协同工作,以利用互补的方法改善整体技术水平。通过这个过程,我们为发布了两个新的MobileNet模型:MobileNetV3-LargeMobileNetV3-Small,它们针对高和低质量资源的使用。然后将这些模型应用到目标检测和语义分割任务中。针对语义分割(或任何密集像素预测)的任务,我们提出了一种新的高效 分割解码器Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP)。我们实现了移动分类、检测和分割的最新成果。与MobileNetV2相比,MobileNetV3-LargeImageNet分类上的准确率提高了3.2%,同时减少了20%的延迟。MobileNetV3-Small是与具有相同延迟的MobileNetV2模型相比,精度提高了6.6%MobileNetV3-Large检测速度比MobileNetV2 COCO检测的准确率快25%以上。MobileNetV3-Large LRASPPMobileNetV2 R-ASPP34%,在城市景观分割的精度相似。

Searching for MobileNetV3翻译_第1张图片

1.Pixel 1延迟和top-1 ImageNet精度之间的权衡。所有型号均使用输入分辨率224V3大和V3小使用乘数0.75,11.25来表示最优边界。使用TFLite[1]在同一设备的单个大核上测量所有延迟。MobileNetV3-SmallLarge是我们提出的下一代移动模型。

Searching for MobileNetV3翻译_第2张图片

2.MAdds和顶级精度之间的权衡。这允许比较针对不同硬件或软件框架的模型。所有MobileNetV3都用于输入分辨率224,并使用乘数0.35,0.5,0.75,11.25。其他部分见第6节。最好用彩色观看。

1.介绍

高效的神经网络在移动应用程序中变得无处不在,使全新的设备上体验成为可能。它们也是保护个人隐私的关键因素,允许用户在不需要将数据发送到服务器进行评估的情况下获得神经网络的好处。神经网络效率的进步不仅通过更高的准确性和更低的延迟改善了用户体验,而且通过降低功耗来帮助保护电池寿命。

本文描述了我们所采用的开发方法MobileNetV3大型和小型模型,以发布下一代高精度高效的神经网络模型,为设备上的计算机视觉提供动力。新的网络推动了技术的发展,并展示了如何将自动搜索与新架构的进步相结合,以建立有效的模型。

本文的目标是开发最佳的移动计算机视觉体系结构,以优化移动设备上的精度和延迟。为此,我们引入了(1)互补搜索技术,(2)适用于移动环境的新的高效非线性版本,(3)新的高效网络设计,(4)新的高效分割解码器。我们做了充分的实验,证明了在广泛的用例和移动设备上评估每种技术的功效和价值。

本文组织如下。我们从第2节的相关工作讨论开始。第3节回顾了用于移动模型的高效构建块。第4节回顾了体系结构搜索以及MnasNetNetAdapt算法的互补性。第5部分介绍了通过联合搜索得到的模型的效率提高的新架构设计。第6节为分类、检测和分割提供了大量的实验,以证明有效性并理解不同部分的贡献。第7节是结论和今后的工作。

2.相关工作

设计深度神经网络体系结构,在准确性和效率之间进行最优平衡是近年来一个热门的研究领域。新颖的手工结构和算法神经结构搜索都在这一领域的发展中发挥了重要作用。SqueezeNet[22]广泛使用1x1卷积和减少和扩展模块,主要专注于减少参数的数量。最近的工作将重点从减少参数转移到减少操作数量(MAdds)和实际测量的延迟上来。MobileNetV1[19]采用深度可分离卷积,大大提高了计算效率。 MobileNetV2[39]在此基础上进行了扩展,引入了具有反向残差和线性bottleneck的资源高效块。ShuffleNet[49]利用组卷积和通道混洗操作来进一步减少MAddsCondenseNet[21]在训练阶段学习组卷积,以保持层之间有用的密集连接,以便特征再利用。ShiftNet[46]提出了交替使用点卷积的转换运算,以取代昂贵的空间卷积。

为了实现架构设计过程的自动化,首先引入强化学习(RL)来搜索具有竞争性精度的高效架构[53,54,3,27,35]。一个完全的结构搜索空间可以成倍增长,而且难以处理。一个完全可配置的搜索空间可以成倍增长,而且难以处理。最近,[43]探索了一个块级层次搜索空间,允许在网络的不同分辨率块上使用不同的层结构。为降低搜索的计算成本,[28,5,45]采用可微架构搜索框架,并基于梯度进行优化。[48, 15, 12]着眼于使现有网络适应受约束的移动平台,提出了更有效的自动化网络简化算法。

量化[23,25,47,41,51,52,37]是通过降低精度算法来提高网络效率的另一项重要的补充结果。最后,知识蒸馏[4,17]提供了一种额外的补充方法,在大型教师网络的引导下,生成小型精确的学生网络。

3.高效的移动构建块

移动模型建立在越来越高效的构建模块上。MobileNetV1[19]引入深度可分离卷积作为传统卷积层的有效替代。深度可分卷积将空间滤波与特征生成机制分离,有效地分解了传统卷积。深度可分离卷积由两个独立的层定义:用于空间滤波的轻量级深度卷积和用于特征生成的较大的1x1点卷积。

MobileNetV2[39]引入了线性bottleneck和反向残差结构,以便利用问题的低秩性质来制作更高效的层结构。该结构如图3所示,由一个1x1展开卷积、接着是深度卷积和一个1x1投影层定义。当且仅当输入和输出具有相同数量的通道时,用残差连接它们。这种结构在输入和输出处保持了紧凑的表示,同时在内部扩展到高维特征空间,以增加非线性全通道转换的表现力。

MnasNet[43]建立在MobileNetV2结构的基础上,在bottleneck结构中引入了基于挤压和激励的轻量级注意模块。注意,与[20]中提出的基于ResNet的模块相比,挤压和激励模块集成在不同的位置。该模块被放置在扩展中的深度过滤器之后,以便将注意力应用到最大的特征表示上,如图4所示。

Searching for MobileNetV3翻译_第3张图片

3.MobileNetV2[39](反向残差和线性bottleneck)。每个块由狭窄的输入和输出(bottleneck)组成,没有非线性,然后扩展到更高维度的空间和投影到输出。残余连接bottleneck (而不是扩展)

Searching for MobileNetV3翻译_第4张图片

4.MobileNetV2 +Squeeze-and-Excite [20]。与[20]相比,我们在残余层中施加挤压和激励。我们使用不同的非线性取决于层,见章节5.2的细节。

对于MobileNetV3,我们使用这些层的组合作为构建块,以便构建最有效的模型。层也升级了修正的swish非线性[36,13,16]。挤压和激励以及swish非线性都使用了sigmoid,这在定点算法中计算效率低,且难以保持精度,因此我们将其替换为第5.2节中讨论的sigmoid[2,11]

4. 网络搜索

网络搜索已经证明自己是发现和优化网络架构的一个非常强大的工具[53,43,5, 48]。对于MobileNetV3,我们使用平台感知NAS通过优化每个网络块来搜索全局网络结构。然后,我们使用NetAdapt算法搜索每一层的过滤器数量。这些技术是互补的,可以结合起来有效地为给定的硬件平台找到优化的模型。

4.1. 用于块搜索的平台感知NAS

[43]类似,我们使用平台感知的神经体系结构方法来查找全局网络结构。由于我们使用相同的基于RNN的控制器和相同的分解层次搜索空间,我们在目标延迟附近的大型移动模型中发现了与[43]相似的结果80 ms。因此,我们只需重用相同的MnasNet-A1[43]作为我们最初的大型移动模型,然后在它上面应用NetAdapt[48]和其他优化。

然而,我们观察到最初的奖励设计并没有针对小型移动模型进行优化。具体来说,它使用了多目标奖励ACC(m) × [LAT(m)=TAR]w来近似pareto最优解,根据目标延迟TAR平衡每个模型m的模型精度ACC(m)和潜伏期LAT(m)。我们观察到,对于小模型,随着延迟的增加,准确性的变化更加显著; 因此,我们需要一个较小的权重因子w =−0:15(相对于[43]中最初的w =−0:07)来补偿不同延迟带来的较大精度变化。有了这个新的权重因子w的增强,我们从头开始一个新的体系结构搜索,以找到初始种子模型,然后应用NetAdapt和其他优化,以获得最终的MobileNetV3-Small模型。

4.2. 用于分层搜索的NetAdapt

我们在体系结构搜索中使用的第二种技术是NetAdapt[48]。这种方法与平台感知的NAS是互补的:它允许以顺序的方式对各个层进行微调,而不是试图推断粗糙但全局的体系结构。详情请参阅原文。简而言之,该技术的进展如下:

1.从支持平台的NAS找到的种子网络体系结构开始。

2.每个步骤:

(a)提出一套新的方案。每个建议都代表了对架构的修改,与前一步相比,至少减少了δ个延迟。

(b) 对于每个提议,我们使用上一步中预训练的模型,填充新提议的体系结构,适当截断和随机初始化缺失的权重。微调每个建议的T步,以得到精度的粗略估计。

(c)根据某种指标选择最佳方案。

3.重复上一步,直到达到目标延迟。

[48]中,指标是最小化精度变化。我们修改了该算法,使延迟变化和精度变化的比值最小化。也就是说,对于每个NetAdapt步骤中生成的所有建议,我们选择一个最大化的建议:Acclatency , ∆latency 潜伏期满足2(a)中的约束。我们的直觉是,因为我们的提议是离散的,所以我们更喜欢最大化权衡曲线斜率的提议。

这个过程一直重复,直到延迟达到目标,然后我们从头开始重新训练新的体系结构。我们使用的建议生成器与用于MobilenetV2[48]中使用的相同。具体来说,我们允许以下两类建议:

  1. 减小任何膨胀层的尺寸;
  2. 减少所有bottleneck大小相同的块的bottleneck,以保持残差连接。

对于我们的实验,我们使用T = 10000,并发现虽然它增加了建议的初始微调,准确性,但它不会改变从头开始训练时的最终准确性。设δ = 0.01|L|,其中L为种子模型的延迟。

5. 网络的改进

除了网络搜索之外,我们还在模型中引入了几个新的组件,以进一步完善最终的模型。我们在网络的开始和结束处重新设计计算开销大的层。我们还引入了一种新的非线性,h-swish,它是swish非线性的改进版本,计算速度更快,更易于量化。

5.1. 重新设计昂贵的层

一旦通过体系结构搜索找到模型,我们就会观察到,一些最后的层以及一些较早的层比其他层更昂贵。我们建议对架构进行一些修改,以减少这些慢层的延迟,同时保持准确性。这些修改超出了当前搜索空间的范围。第一个修改修改了网络最后几层的交互方式,以便更有效地产生最终的特征。当前模型基于MobileNetV2的反向瓶颈结构和变体,使用1x1卷积作为最后一层,以便扩展到更高维的特征空间。这一层对于具有丰富的预测特征至关重要。然而,这是以额外的延迟为代价的。

为了减少延迟并保留高维特性,我们将这一层移过了最终的平均池化。最后一组特征现在以1x1空间分辨率计算,而不是7x7空间分辨率。这种设计选择的结果是,就计算和延迟而言,特征的计算几乎是免费的。

一旦降低了这个特征生成层的成本,就不再需要之前的瓶颈投影层来减少计算量。这一观察结果允许我们删除之前瓶颈层中的投影和过滤层,进一步降低计算复杂度。原始和优化的最后阶段如图5所示。高效的最后一个阶段减少了7毫秒的延迟,即11%的运行时间,并在几乎没有损失精度的情况下减少了3000MAdds的操作次数。第6节包含详细的结果。

Searching for MobileNetV3翻译_第5张图片

5.原始最后特征层与有效特征层的比较。这一更有效的最后阶段能够在不损失精度的情况下,在网络的末端丢弃昂贵的三层。

另一个昂贵的层是初始的一组过滤器。目前的移动模型倾向于在一个完整的3x3卷积中使用32个滤波器来构建初始滤波器组用于边缘检测。通常这些过滤器是彼此的镜像。我们尝试减少过滤器的数量,并使用不同的非线性来减少冗余。我们决定使用hard swish非线性来测试这一层,因为它的性能和其他非线性测试一样好。我们能够将过滤器的数量减少到16个,同时使用ReLUswish保持与32个过滤器相同的精度。这节省了额外的2毫秒和1000MAdds

5.2. 非线性

[36,13,16]中引入了一种称为swish的非线性,当它被用作替代ReLU时,显著提高了神经网络的准确性。非线性定义为:

swish x = x · σ(x)

虽然这种非线性提高了精度,但它在嵌入式环境中带来了非零成本,因为在移动设备上计算sigmoid函数要昂贵得多。我们用两种方法处理这个问题。

1.我们用它的分段线性硬模拟函数代替sigmoid函数: ReLU6(6x+3)/6类似于[11, 44]。细微的区别是我们使用的是ReLU6而不是自定义剪辑常数。类似地,swish的加强版本变成:

h-swish[x] = xReLU6(x + 3)/6

最近在[2]中也提出了hard-swish的类似版本。软硬版本的sigmoidswish非线性的比较如图6所示。我们选择常量的动机是简单性和与原始平滑版本的良好匹配。在我们的实验中,我们发现所有这些函数的硬版本在精度上没有明显的区别,但从部署的角度来看有多个优势。首先,ReLU6的优化实现在几乎所有软件和硬件框架上都可用。其次,在量化模式下,它消除了由于近似sigmoid的不同实现而导致的潜在的数值精度损失。最后,在实践中,h-swish可以作为分段函数实现,以减少内存访问数量,从而大幅降低延迟成本。

Searching for MobileNetV3翻译_第6张图片

6.Sigmoidswish非线性和其他对应。

2. 应用非线性的成本随着我们对网络的深入而降低,因为每层激活内存通常在分辨率下降时减半。顺便说一句,我们发现大多数好处都是通过在更深的层中使用它们来实现的。因此,在我们的体系结构中,我们只在模型的后半部分使用h-swish。我们参考表1和表2的精确布局。

即使有了这些优化,h-swish仍然会带来一些延迟成本。然而,正如我们在章节中所演示的6当使用基于分段函数的优化实现时,在没有优化的情况下,对准确性和延迟的净影响是积极的,而且是实质性的。

Searching for MobileNetV3翻译_第7张图片

1.MobileNetV3-Large规范。SE表示该块中是否存在挤压和激发。NL表示所使用的非线性类型。这里HS表示h-swish, RE表示ReLUNBN表示没有批处理归一化。s表示步长。

Searching for MobileNetV3翻译_第8张图片

2.MobileNetV3-Small规范。表示法见表1

5.3. 大型squeeze-and-excite

[43]中,挤压-激励瓶颈的大小相对于卷积瓶颈的大小。相反,我们将它们全部替换为扩展层中通道数量的1/4。我们发现这样做增加了准确性,在适度增加参数的数量,没有明显的延迟成本。

5.4. MobileNetV3定义

MobileNetV3定义为两个模型:MobileNetV3-large,MobileNetV3-Small。这些模型分别针对高资源和低资源用例。这些模型是通过应用平台感知的NASNetAdapt进行网络搜索并结合本节中定义的网络改进来创建的。参见表1和表2了解我们的网络的完整结构。

6.实验

我们提出了实验结果,以证明新的MobileNetV3模型的有效性。我们报告了分类、检测和分割的结果。我们还报告了各种消融研究,以阐明各种设计决策的影响。

6.1分类

由于已成为标准,我们使用ImageNet[38]进行所有分类实验,并将准确性与各种资源使用度量(如延迟和倍数添加)进行比较。

6.1.1训练设置

我们用同步训练设置来训练我们的模型4x4 TPU Pod[24]使用标准tensorflow momentum =0.9RMSProp优化器。我们使用初始学习率0.1,批次大小为4096(每个芯片128张图像),学习率衰减率为0.01 / 3epoch。我们使用了0.8dropoutl2权值衰减1e-5和与Inception[42]相同的图像预处理。最后我们使用衰减为0.9999的指数移动平均。我们所有的卷积层都使用批处理归一化层,其平均衰减为0.99

6.1.2测试设置

为了测量延迟,我们使用标准的谷歌像素手机,并通过标准的TFLite基准测试工具运行所有网络。我们在所有的测量中使用单螺纹大芯。我们不报告多核推理时间,因为我们发现这种设置对移动应用程序不太实际。我们为tensorflow lite贡献了一个原子h-swish操作符,它现在是最新版本的默认值。我们展示了优化后的h-swish对图9的影响。

6.2结果

如图1所示,我们的模型优于MnasNet[43]ProxylessNas等当前的技术水平[5]MobileNetV2[39]。我们在表3中报告了不同Pixel手机上的浮点性能。我们将量化结果包含在表4中。

Searching for MobileNetV3翻译_第9张图片

3.Pixel系列手机上的浮点性能(P-n表示像素-n手机)。所有的延迟都以毫秒为单位,并使用单个批次大小为一个的大核进行测量。Top-1表示在ImageNet上的精度。

Searching for MobileNetV3翻译_第10张图片

4.量化的性能。所有的延迟都以毫秒为单位。推理延迟是在各自的Pixel 1/2/3设备上使用单个大核心测量的。

在图7中,我们展示了作为倍增器和分辨率函数的MobileNetV3的性能权衡。注意MobileNetV3- small的性能优于MobileNetV3-large,乘数缩放,以匹配近3%的性能。另一方面,分辨率提供了比乘数更好的权衡。然而,应该注意的是,解决方案往往是由问题决定的(例如,分割和检测问题通常需要更高的分辨率),因此不能总是用作可调参数。

Searching for MobileNetV3翻译_第11张图片

7.MobileNetV3的性能作为不同乘数和分辨率的函数。在我们的实验中,我们使用了0.35,0.5,0.75,1.01.25的乘数,其固定分辨率为224,分辨率96,128,160,192,224256,固定的深度乘数为1.0。最好用彩色观看。Top-1表示在ImageNet上的精度。

6.2.1消融研究

在表5中,我们研究了在哪里插入h-swish非线性函数的选择,以及使用优化实现相对于原始实现的改进。可以看到,使用优化的h-swish实现可以节省6ms(超过10%的运行时)。与传统的ReLU相比,优化的h-swish只增加了额外的1ms

Searching for MobileNetV3翻译_第12张图片

5所示.非线性对MobileNetV3-Large的影响。在h-swish @N中,N表示在启用了h-swish的第一层中的通道数量。第三列显示没有优化h-swish的运行时。最高的精度是在ImageNet和延迟是毫秒。

    8显示了基于非线性选择和网络宽度的有效前沿。MobileNetV3在网络中间使用h-swish,显然在ReLU中占主导地位。有趣的是,在整个网络中添加h-swish比扩大网络的插值边界略好。

在图9中,我们展示了不同组件的引入如何沿着延迟/精度曲线移动。

Searching for MobileNetV3翻译_第13张图片

8.h-swish vs ReLU对优化和非优化h-swish延迟的影响。曲线显示了深度乘法器应用的前沿。注意,将h-swish放置在所有具有80个或更多通道(V3)的层上,为优化的h-swish和非优化的h-swish提供了最佳的权衡。Top-1表示在ImageNet上的精度。

Searching for MobileNetV3翻译_第14张图片

9. 单个组件在MobileNetV3开发中的影响。进步是通过向上和向左移动来衡量的。

6.3. 检测

我们使用MobileNetV3作为替代SSDLite[39]中的骨干网特征提取器,并在COCO数据集[26]上与其他骨干网进行比较。

MobileNetV2[39]之后,我们把第一层SSDLite到最后一个输出步长为16的特征提取层,并将SSDLite的第二层连接到输出步长为32的最后一个特征提取层。根据检测文献,我们将这两个特征提取层分别称为C4C5。对于MobileNetV3-Large, C4是第13瓶颈块的扩展层。对于MobileNetV3-Small, C4是第9个瓶颈块的扩展层。对于这两个网络,C5是池化之前的层。

我们还将C4C5之间的所有特征层的通道数减少2。这是因为MobileNetV3的最后几层被调优为输出1000个类,这可能是多余的,当转移到COCO数据集的90类时。

COCO测试集的结果见表6。通过减少通道,MobileNetV3-Large比具有几乎相同mAPMobileNetV227%。与MobileNetV2MnasNet相比,带有通道减少的MobileNetV3-SmallmAP也要高2.40.5,同时速度要快35%。对于这两个MobileNetV3模型,通道减少技巧在没有mAP损失的情况下有助于减少大约15%的延迟,这表明Imagenet分类和COCO目标检测可能更喜欢不同的特征提取器形状。

Searching for MobileNetV3翻译_第15张图片

6.具有不同主干的SSDLiteCOCO测试集上的目标检测结果。: C4C5之间的通道减少了1 / 2

6.4. 语义分割

在本小节中,我们使用MobileNetV2[39]和提出的MobileNetV3作为移动语义分割任务的网络骨干。此外,我们比较了两个分割头。第一个,被称为R-ASPP,在[39]中被提出。R-ASPP是深度空间金字塔池化模块[7,8,9]的简化设计,它只采用了由1 × 1卷积和全局平均池化操作组成的两个分支[29,50]。在这项工作中,我们提出了另一种轻量级分割头,称为Lite R-ASPP(LR-ASPP),如图10所示。Lite R-ASPPR-ASPP的基础上进行了改进,它以类似于挤压-激励模块[20]的方式部署全局平均池化,在该模块中我们使用了一个大的池化核,具有大的步长(以节省一些计算),并且在模块中只有一个1×1卷积。我们对MobileNetV3的最后一个块应用深度卷积[18,40,33,6]来提取密度更大的特征,并进一步从底层特征中添加一个跳过连接[30]来捕获更详细的信息。

Searching for MobileNetV3翻译_第16张图片

10.MobileNetV3的基础上,提出的分割头Lite R-ASPP可以在混合来自多个分辨率的特征的同时提供快速的语义分割结果。

我们在Cityscapes数据集上进行了实验[10]的度量mIOU[14],并且只利用' fine '注释。我们采用与[8,39]相同的训练协议。我们的所有模型都是从头开始训练的,没有在ImageNet[38]上进行预训练,并使用单尺度输入进行评估。与目标检测类似,我们观察到,我们可以将网络骨干网最后一块中的通道减少2倍,而不会显著降低性能。我们认为该骨干是为1000ImageNet图像分类[38]而设计的,而在cityscape上只有19个类,这意味着骨干中存在一些通道冗余。

我们在表7中报告了我们的城市景观验证集结果。如表所示,我们观察到(1)在保持相似性能(1行与第2行、第5行与第2)的同时,将网络骨干网最后一块中的通道减少2倍,显著提高了速度6)(2)所提出的分段头LR-ASPPR-ASPP[39]略快,性能有所提高(第二行与第三行,第六行与第七行)(3) 将分割头中的过滤器从256减少到128,以稍微降低性能为代价提高速度(3行相对于第4行,第7行相对于第8),(4) 当使用相同的设置时,MobileNetV3模型变体获得了类似的性能,但略快于MobileNetV2版本(1行与第5行、第2行与第6行、第3行与第7行、第4行与第8),(5) MobileNetV3-Small获得与MobileNetV2-0.5类似的性能,但速度更快,(6)MobileNetV3-Small明显优于MobileNetV2-0.35,但产生了相似的速度。

Searching for MobileNetV3翻译_第17张图片 7所示.城市景观语义分割结果。RF2:将最后一块的过滤器减少2倍。V2 0.5V2 0.35是带有深度倍增器= 0.5和的MobileNetV2 0.35,分别。SH: Segmentation Head,其中O采用R-ASPP, P采用提出的LR-ASPPSH: Segmentation Head,其中O采用R-ASPP, P采用提议的LR-ASPPCPU (h):半分辨率输入(512 × 1024)CPU时间。第8行和第11行是我们的MobileNetV3分割候选。

8显示了我们的cityscape测试集结果。我们使用MobileNetV3作为网络骨干网的分割模型的性能分别优于ESPNetv2[32]CCC2[34]ESPNetv1[32] 6.4%10.6%12.3%,同时在MAdds方面速度更快。在MobileNetV3最后一个块不使用深度卷积提取密集特征映射时为0.6%,但速度提高到1.98B(半分辨率输入),性能略有下降,比ESPNetv2 CCC2ESPNetv11.361.592.27倍。此外,我们使用MobileNetV3-Small作为网络骨干网的模型仍然比所有的模型至少高出2.1%

Searching for MobileNetV3翻译_第18张图片

8所示。城市景观测试集语义分割结果。操作系统:输出Stride,输入图像空间分辨率与主干输出分辨率的比值。当OS = 16时,在骨干网的最后一块添加深度卷积。当OS = 32时,不使用深度卷积。MAdds (f):全分辨率输入(1024 × 2048)的乘加测量w.r.tMAdds (h): multiplyadd测量的w.r.t半分辨率输入(512 × 1024)CPU (f):Pixel 3的单个大核上测量的CPU时间(浮点)w.r.t全分辨率输入(1024 × 2048)CPU (h):半分辨率输入(即,512×1024)ESPNet[31,32]CCC2[34]采用半分辨率输入,而我们的模型直接采用全分辨率输入。

7. 结论和未来工作

在本文中,我们介绍了MobileNetV3 LargeMobileNetV3 small模型,测试了移动分类、检测和分割的新技术。我们已经描述了我们在利用多种网络架构搜索算法以及网络设计方面的进步来推出下一代移动模型方面所做的努力。我们还展示了如何适应非线性,如swish,并以量化友好和有效的方式应用挤压和激励,将它们作为有效的工具引入移动模型领域。我们还介绍了一种新的轻量级分割解码器,称为LR-ASPP。尽管如何最好地将自动搜索技术与人类直觉结合起来仍然是一个有待解决的问题,但我们很高兴地展示了这些首批积极的结果,并将继续改进这些方法作为未来的工作。

Acknowledgements: We would like to thank Andrey Zhmoginov, Dmitry Kalenichenko, Menglong Zhu, Jon Shlens, Xiao Zhang, Benoit Jacob, Alex Stark, Achille Brighton and Sergey Ioffe for helpful feedback and discussion.

想看pdf或者英文文献的:

链接:https://pan.baidu.com/s/1_nfnsMHbKKZrLpRjczkpkQ 
提取码:yyds

你可能感兴趣的:(paper,reading,深度学习,人工智能,神经网络)