《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译

摘要:

我们为移动和嵌入式视觉应用程序提出了一类名为mobilenet的高效模型。mobilenet基于一种流线型的架构,使用深度可分离卷积来构建轻量级的深度神经网络。我们引入了两个简单的全局超参数,可以有效地在延迟和准确性之间进行权衡。这些超参数允许模型构建者根据问题的约束为他们的应用程序选择合适大小的模型。我们在资源和准确性的权衡上进行了大量的实验,并显示了与其他流行模型相比的强大性能ImageNet分类。然后,我们在广泛的应用和用例中展示了mobilenet的有效性,包括对象检测、细粒度分类、人脸属性和大规模地理定位。

1.引言

自从AlexNet[19]通过赢得ImageNet挑战而普及深度卷积神经网络以来,卷积神经网络已经在计算机视觉中无处不在:ILSVRC 2012[24]。为了达到更高的精度,总的趋势是制作更深、更复杂的网络[27,31,29,8]。然而,这些提高准确性的进步并不一定会使网络在规模和速度方面更高效。在许多现实世界的应用中,如机器人、自动驾驶汽车和增强现实,识别任务需要在计算有限的平台上及时执行。

本文描述了一种高效的网络架构和一组两个超参数,以构建非常小的、低延迟的模型,可以很容易地满足移动和嵌入式视觉应用的设计需求。第2节回顾了之前建立小模型的工作。第3节描述了MobileNet架构和两个超参数宽度乘法器和分辨率乘法器,以定义更小和更高效的MobileNet。第4部分描述了ImageNet上的实验以及各种不同的应用程序和用例。第5节以总结和结论结束。

2.之前的工作

在最近的文献中,人们对构建小型和高效的神经网络越来越感兴趣,例如[16,34,12、36、22]。许多不同的方法一般可以分为压缩预训练网络和直接训练小型网络。本文提出了一类网络架构,允许模型开发人员为其应用程序选择匹配资源限制(延迟、大小)的小型网络。mobilenet主要专注于优化延迟,但也产生小型网络。许多关于小型网络的论文只关注规模,而没有考虑速度。

mobilenet主要是由深度可分离卷积构建的,该卷积最初在[26]中引入,随后在Inception模型[13]中使用,以减少前几层的计算。扁平化网络[16]是由完全分解卷积构建的网络,展示了极分解网络的潜力。与本文无关的是,分解网络[34]引入了类似的分解卷积以及拓扑连接的使用。随后,Xception网络[3]演示了如何扩展深度可分离过滤器以执行Inception V3网络。另一个小型网络是
Squeezenet[12]使用瓶颈方法设计一个非常小的网络。其他简化计算网络包括结构化变换网络[28]和deep fried convnets[37]。获得小型网络的另一种方法是收缩、分解或压缩预先训练的网络。文献中已经提出了基于积量化[36]、哈希[2]、剪枝、矢量量化和Huffman编码[5]的压缩方法。此外,人们还提出了各种分解方法来加速预训练的网络[14,20]。另一种训练小网络的方法是蒸馏[9],它使用一个较大的网络来教一个较小的网络。它是对我们的方法的补充,在第4节的一些用例中已经介绍过了。另一种新兴的方法是低位网络[4,22,11]。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第1张图片

 图1 MobileNet模型可以应用于各种识别任务,以提高设备智能的效率

3.MobileNet架构

在本节中,我们首先描述了核心层,MobileNet是建立在其上的深度可分离的过滤器。然后描述了MobileNet的网络结构,最后描述了两个模型的收缩超参数、宽度乘法器和分辨率乘法器。

3.1深度可分离卷积

MobileNet模型基于深度可分卷积这是一种分解卷积的形式,它将一个标准卷积分解为深度卷积和一个1×1卷积称为点卷积。对于MobileNets,深度卷积应用一个单一的滤波器到每个输入通道。然后,逐点卷积应用1×1卷积将输出与深度卷积组合在一起。一个标准的卷积在一个步骤中既可以过滤输入,又可以将输入组合成一组新的输出。深度可分离卷积将其分为两层,一层用于滤波另一层用于合并。这种分解方法可以大大减少计算量和模型大小。图2显示了如何将标准卷积2(a)分解为深度卷积2(b)和1 × 1点的卷积2 (c)。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第2张图片

 (a) 标准卷积过滤器

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第3张图片

 (b) Depthwise 卷积过滤器

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第4张图片

 (c) 1×1在深度可分离卷积的背景下称为点态卷积的卷积滤波器

图2 将(a)中的标准卷积滤波器替换为(b)中的深度卷积和(c)中的点卷积两层,构建深度可分离滤波器。

标准卷积层以D_F × D_F × M特征图F作为输入,得到D_F × D_F × N特征图G,其中D_F为方形输入特征图map1的空间宽度和高度,M为输入通道数(输入深度),D_G为正方形输出feature map的空间宽度和高度,N为输出通道数(输出深度)。标准卷积层由大小为D_K×D_K×M×N的卷积核K参数化,其中D_K为核的空间维数,假设为平方,M为输入通道数,N为前面定义的输出通道数。假设步幅为1和填充,标准卷积的输出特征图计算如下:

标准卷积的计算代价为:

 

 其中计算代价与输入通道数M、输出通道数N相乘,核大小D_K × D_K和特征映射大小D_F × D_F。MobileNet模型解决了这些术语中的每一个以及它们之间的交互。首先,它使用深度可分离卷积来打破输出通道数与内核大小之间的相互作用。

标准卷积运算具有基于卷积核的特征滤波和特征组合以产生新的表示的效果。通过使用称为深度可分离卷积的分解卷积,可以将滤波和组合步骤分成两个步骤,以大幅降低计算成本。

深度可分离卷积由两层组成:深度卷积和点卷积。我们使用深度卷积来为每个输入通道(输入深度)应用一个过滤器。然后使用点态卷积(一个简单的1×1卷积)创建深度层输出的线性组合。mobilenet在这两层都使用批处理规范(BN)和ReLU非线性。

每个输入通道有一个滤波器的深度卷积(输入深度)可以写成:

 其中Kˆ为大小为D_K × D_K × M的深度卷积核,将Kˆ中的第M个滤波器应用于F中的第M个通道,得到过滤后的输出feature mapGˆ的第M个通道。

深度卷积的计算代价为:

 相对于标准卷积,深度卷积是非常有效的。然而,它只过滤输入通道,并没有将它们组合起来创建新的功能。因此,为了生成这些新特征,需要一个额外的层,通过1 × 1的卷积计算深度卷积输出的线性组合。

深度卷积和1 × 1的组合(逐点)卷积被称为深度可分离卷积,它最初是在[26]中引入的。

深度可分离卷积的代价:

 也就是深度卷积和1×1点态卷积的总和。

通过将卷积表示为滤波和合并的两步过程,我们可以减少以下运算:

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第5张图片

 MobileNet使用3 × 3深度可分离卷积,它使用的计算量比标准卷积少8到9倍,仅在精度上有很小的降低,如第4节所示。在空间维度上的附加因子分解,例如[16,31]并没有节省太多的额外计算,因为深度卷积的计算量非常少。

3.2 网络结构与训练

MobileNet结构是建立在深度可分离的卷积上,如在前一节中提到的,除了第一层是一个完整的卷积。通过用这样简单的术语定义网络,我们能够很容易地探索网络拓扑以找到一个好的网络。MobileNet架构在表1中定义。所有层之后都是batchnorm[13]和ReLU非线性激活函数,但最后的全连接层没有非线性,并将其输入softmax层进行分类。图3对比了具有规则卷积、批范数和ReLU非线性的层与具有深度卷积、1 × 1点卷积以及每个卷积层后的批范数和ReLU的分解层。向下采样在深度卷积和第一层用大步卷积处理。在完全连接层之前,最终的平均池将空间分辨率降低到1。将深度和逐点卷积作为单独的层计算,MobileNet有28层。

表1 MobileNet网络架构

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第6张图片

 

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第7张图片

 图3 左:带BN和的标准卷积层线性整流函数  右:深度可分卷积,深度分层和点分层,然后是BN和ReLU。

仅仅根据少量的多重添加来简单地定义网络是不够的。同样重要的是,要确保这些操作能够有效地实现。例如,非结构化稀疏矩阵操作通常不会比密集矩阵操作快,直到非常高的稀疏级别。我们的模型结构将几乎所有的计算放入密集的1×1卷积中。这可以用高度优化的一般矩阵乘法(GEMM,general matrix multiply)来实现功能。通常,卷积由GEMM实现,但需要在内存中进行名为im2col的初始重新排序,以便将其映射到GEMM。例如,在流行的Caffe包[15]中使用了这种方法。1×1卷积不需要在内存中重新排序,可以直接用GEMM实现,GEMM是最优化的数值线性代数算法之一。MobileNet 95%的计算时间花在1 × 1的卷积上,也有75%的参数,如表2所示。几乎所有的附加参数都在全连接层中。

表2 每层资源类型

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第8张图片

 使用TensorFlow[1]训练MobileNet模型RMSprop[33]具有类似于Inception V3[31]的异步梯度下降。然而,与训练大型模型相反,我们使用较少的正则化和数据增强技术,因为小型模型有较少的过拟合问题。当训练mobilenet时,我们不使用侧头(side heads)或标签平滑,另外,通过限制在大型Inception训练[31]中使用的小作物的大小,减少扭曲图像的数量。此外,我们发现在深度滤波器上放置很少或没有权值衰减(l2正则化)是很重要的,因为它们中的参数非常少。在下一节的ImageNet基准测试中,无论模型的大小如何,所有模型都使用相同的训练参数进行训练。

3.3 宽度倍增器:更薄的模型

虽然基本的MobileNet架构已经很小,而且延迟很低,但很多时候,一个特定的用例或应用程序可能需要模型更小、更快。为了构造这些更小、计算成本更低的模型,我们引入了一个非常简单的参数α,称为宽度乘子。宽度乘子α的作用是在每一层均匀地细化网络。对于给定的层数和宽度乘子α,输入通道数M为αM,输出通道数N为αN。

具有宽度乘子α的深度可分卷积的计算代价为:

 其中α∈(0,1],典型设置为1,0.75,0.5和0.25。α = 1是基线MobileNet, α < 1是减少的MobileNet。宽度乘子具有减小计算量和参数数量的效果,其平方近似为α^2。宽度乘法器可以应用于任何模型结构,以定义一个新的更小的模型,具有合理的准确性、延迟和大小权衡。它用于定义一个新的简化结构,需要从头开始训练。

3.4 分辨率乘数:减少的表示

第二个降低神经网络计算成本的超参数是分辨率乘子ρ。我们将其应用于输入图像,然后每一层的内部表示都会被相同的乘法器缩减。在实践中,我们隐式地通过设置输入分辨率来设置ρ。

我们现在可以将网络核心层的计算成本表示为深度可分卷积,其宽度乘子α和分辨率乘子ρ:

 其中ρ∈(0,1],通常隐式设置,使网络的输入分辨率为224、192、160或128。ρ = 1是基线的MobileNet和ρ < 1是减少计算的MobileNet。分辨率乘子通过ρ^2具有降低计算代价的效果。

作为一个例子,我们可以看看MobileNet中的一个典型层,看看深度可分离卷积、宽度乘法器和分辨率乘法器如何降低成本和参数。表3显示了在体系结构收缩方法被依次应用到该层时,该层参数的计算和数量。第一行显示了一个完整的卷积层的multi - add和parameters,该层的输入特征图大小为14×14×512,带有一个内核K的大小为3 × 3 × 512 × 512。我们将在下一节详细讨论资源和准确性之间的权衡。

表3 用于修改标准卷积的资源使用情况。请注意,每一行都是添加在前一行之上的累积效果。这个例子是一个内部的MobileNet层,DK = 3, M = 512, N = 512, DF = 14。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第9张图片

 

4. 实验

在本节中,我们首先研究深度卷积的影响,以及通过减少网络的宽度而不是层数来选择收缩。然后,我们展示了基于两个超参数(宽度乘法器和分辨率乘法器)减少网络的权衡,并将结果与一些流行的模型进行了比较。然后,我们研究了mobilenet应用于许多不同的应用程序。

4.1 模型选择

首先,我们展示了使用深度可分离卷积的MobileNet的结果,与使用全卷积构建的模型相比。在表4中,我们看到,与全卷积相比,使用深度可分离卷积仅降低了1%的精度,在ImageNet上节省了大量的多添加和参数。

表4 深度可分vs全卷积MobileNet

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第10张图片

 接下来,我们将展示使用宽度乘法器的较薄模型与使用较少层的较浅模型的比较结果。为了使MobileNet更浅,我们去掉了表1中特征大小为14 × 14 × 512的5层可分离滤波器。表5显示,在类似的计算和参数数量下,使mobilenet变薄比使其变浅好3%。

表5 窄和浅MobileNet

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第11张图片

4.2 模型缩小超参数 

表6显示了使用宽度乘子α缩小MobileNet架构的准确性、计算量和大小权衡。在α = 0.25时,精度平稳下降,直到体系结构变得太小。

表7显示了通过降低输入分辨率训练mobilenet对不同分辨率乘子的准确性、计算和大小的权衡。随着分辨率的增加,精度会平滑下降。

图4显示了由宽度乘子α∈{1,0.75,0.5,0.25}和分辨率{224,192,160,128}的叉积得到的16个模型的ImageNet精度和计算量之间的权衡。当模型在α = 0.25时变得非常小时,结果是有跳跃的对数线性。

表6 MobileNet宽度乘数

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第12张图片

 表7 MobileNet分辨率

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第13张图片

图5显示了由宽度乘子α∈{1,0.75,0.5,0.25}和分辨率{224,192,160,128}的交叉积得到的16个模型的ImageNet精度和参数数量之间的权衡。 

表8比较了完整的MobileNet和原始的googlet[30]和VGG16[27]。MobileNet几乎和VGG16一样精确,同时它的体积是VGG16的32倍小,计算强度比VGG16小27倍。它比GoogleNet更精确,同时体积更小,计算量比GoogleNet少2.5倍以上。

表9比较了宽度乘子α = 0.5和分辨率160 × 160的缩小MobileNet。Reduced MobileNet比AlexNet[19]好4%,比AlexNet小45倍,计算量少9.4倍。在同样大小的情况下,它比Squeezenet[12]好4%,计算量少22倍。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第14张图片

 图4 这张图显示了计算(multi - add)和ImageNet基准测试的准确性之间的权衡。注意精度和计算之间的对数线性关系。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第15张图片

 图5 这张图显示了ImageNet基准测试中参数数量和准确性之间的权衡。颜色编码输入分辨率。参数的数量不会根据输入分辨率而变化。

表8 MobileNet与流行模型的比较

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第16张图片

 表9 更小的MobileNet比较流行的模型

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第17张图片

 4.3 细粒度的识别

我们在Stanford Dogs数据集[17]上训练MobileNet进行细粒度识别。我们扩展了[18]的方法,并从web上收集了比[18]更大但更嘈杂的训练集。我们使用有噪声的网络数据来预训练一个细粒度的狗识别模型,然后在斯坦福狗训练集上对模型进行微调。斯坦福狗测试集的结果见表10。MobileNet几乎可以在大大减少计算量和大小的情况下实现[18]的先进结果。

表10 Stanford Dogs的MobileNet

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第18张图片

 4.4 大规模Geolocalizaton

PlaNet[35]把确定照片在地球上的什么地方拍摄的任务作为一个分类问题。该方法将地球划分为一个地理单元网格,作为目标类别,并对数百万张带有地理标签的照片训练卷积神经网络。PlaNet已经被证明可以成功地定位大量不同的照片,并优于处理相同任务的Im2GPS[6,7]。

我们在相同的数据上使用MobileNet架构重新训练PlaNet。而基于Inception V3架构的完整行星模型[31]有5200万个参数和57.4亿多个添加。MobileNet模型只有1300万个参数,通常为300万的主体和1000万的最后一层和58万个多添加。如表11所示,MobileNet版本的性能与PlaNet相比只有轻微的下降,尽管它更紧凑。此外,它的表现仍然远远优于Im2GPS。

表11 PlaNet使用MobileNet架构的性能。百分比是Im2GPS测试数据集在距离地面一定距离内的百分比。原始PlaNet模型的数字是基于一个改进了架构和训练数据集的更新版本。

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第19张图片

 4.5 脸部属性

MobileNet的另一个用例是用未知或深奥的训练程序压缩大型系统。在一个人脸属性分类任务中,我们证明了MobileNet与精馏[9]之间的协同关系,精馏[9]是一种面向深度网络的知识转移技术。我们寻求减少一个带有7500万个参数和16亿个multi - add的大型人脸属性分类器。分类器在类似YFCC100M[32]的多属性数据集上训练。

我们使用MobileNet架构提取人脸属性分类器。精馏[9]的工作原理是训练分类器模拟更大的model2的输出,而不是基本真实的标签,因此可以从大型(可能是无限的)未标记的数据集进行训练。结合精馏训练的可伸缩性和MobileNet的简约参数化,终端系统不仅不需要正则化(例如重量衰减和早期停止),而且还展示了增强的性能。从表12可以明显看出,基于mobilenet的分类器对激进的模型收缩是有弹性的:它实现了一个类似于内部的属性平均精度(平均AP),而只消耗1%的multi - add。

表12 使用MobileNet架构的人脸属性分类。每一行对应不同的超参数设置(宽度乘法器α和图像分辨率)。

 

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第20张图片

 4.6 目标检测

MobileNet也可以作为一个有效的基础网络部署在现代目标检测系统。我们报告了基于最近赢得2016年COCO挑战[10]的工作,在COCO数据上进行对象检测的MobileNet训练的结果。在表13中,MobileNet与VGG和Inception V2[13]在fast - rcnn[23]和SSD[21]框架下进行了比较。在我们的实验中,SSD以300输入分辨率(SSD 300)进行评估,并将fast -RCNN与300和600输入分辨率(Faster- RCNN 300, fast -RCNN 600)进行比较。Faster-RCNN模型对每幅图像评估300个RPN提案箱。模型在不包括8k的最小图像的COCO训练+val上训练,并在最小图像上进行评估。对于这两种框架,MobileNet实现了与其他网络相比的结果,而计算复杂性和模型大小只有很小的一部分。

表13 使用不同框架和网络体系结构的COCO目标检测结果比较。mAP报告的COCO主要挑战度量(AP在IoU=0.50:0.05:0.95)

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第21张图片

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第22张图片

 图6 使用MobileNet SSD的目标检测结果示例。

 4.7 面对嵌入

FaceNet模型是目前最先进的人脸识别模型[25]。该算法基于三联体缺失构建人脸嵌入。为了建立一个移动FaceNet模型,我们使用蒸馏来训练,通过最小化FaceNet和MobileNet在训练数据上输出的平方差。非常小的MobileNet模型的结果可以在表14中找到。

表14 MobileNet从FaceNet蒸馏

《MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications》中文翻译_第23张图片

 5 结论

我们提出了一种新的模型架构,称为mobilenet基于深度可分离卷积。我们研究了一些导致高效模型的重要设计决策。然后,我们演示了如何使用宽度乘法器和分辨率乘法器来构建更小、更快的mobilenet,通过权衡合理的准确性来减少大小和延迟。然后,我们将不同的mobilenet与流行的模型进行了比较,展示了优越的尺寸、速度和准确性特征。我们通过演示MobileNet在应用于各种各样的任务时的有效性来总结。作为帮助采用和探索mobilenet的下一步,我们计划在张量流中发布模型。

参考文献

[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow. org, 1, 2015. 4

[2] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. CoRR, abs/1504.04788, 2015. 2

[3] F. Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357v2, 2016. 1

[4] M. Courbariaux, J.-P. David, and Y. Bengio. Training deep neural networks with low precision multiplications. arXiv preprint arXiv:1412.7024, 2014. 2

[5] S. Han, H. Mao, and W. J. Dally. Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding. CoRR, abs/1510.00149, 2, 2015. 2

[6] J. Hays and A. Efros. IM2GPS: estimating geographic information from a single image. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2008. 7

[7] J. Hays and A. Efros. Large-Scale Image Geolocalization. In J. Choi and G. Friedland, editors, Multimodal Location Estimation of Videos and Images. Springer, 2014. 6, 7

[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 1

[9] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 2, 7

[10] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z.Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016. 7

[11] I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, and Y. Bengio. Quantized neural networks: Training neural networks with low precision weights and activations. arXiv preprint arXiv:1609.07061, 2016. 2

[12] F. N. Iandola, M. W. Moskewicz, K. Ashraf, S. Han, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 1mb model size. arXiv preprint arXiv:1602.07360, 2016. 1, 6

[13] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 1, 3, 7

[14] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866, 2014. 2

[15] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 4

[16] J. Jin, A. Dundar, and E. Culurciello. Flattened convolutional neural networks for feedforward acceleration. arXiv preprint arXiv:1412.5474, 2014. 1, 3

[17] A. Khosla, N. Jayadevaprakash, B. Yao, and L. Fei-Fei. Novel dataset for fine-grained image categorization. In First Workshop on Fine-Grained Visual Categorization, IEEE Conference on Computer Vision and Pattern Recognition, Colorado Springs, CO, June 2011. 6

[18] J. Krause, B. Sapp, A. Howard, H. Zhou, A. Toshev, T. Duerig, J. Philbin, and L. Fei-Fei. The unreasonable effectiveness of noisy data for fine-grained recognition. arXiv preprint arXiv:1511.06789, 2015. 6

[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 1, 6

[20] V. Lebedev, Y. Ganin, M. Rakhuba, I. Oseledets, and V. Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553, 2014. 2

[21] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. Ssd: Single shot multibox detector. arXiv preprint arXiv:1512.02325, 2015. 7

[22] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. Xnornet: Imagenet classification using binary convolutional neural networks. arXiv preprint arXiv:1603.05279, 2016. 1, 2

[23] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 7

[24] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015. 1

[25] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 815–823, 2015. 8

[26] L. Sifre. Rigid-motion scattering for image classification. PhD thesis, Ph. D. thesis, 2014. 1, 3

[27] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 1, 6

[28] V. Sindhwani, T. Sainath, and S. Kumar. Structured transforms for small-footprint deep learning. In Advances in Neural Information Processing Systems, pages 3088–3096, 2015. 1

[29] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261, 2016. 1

[30] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1–9, 2015. 6

[31] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. arXiv preprint arXiv:1512.00567, 2015. 1, 3, 4, 7

[32] B. Thomee, D. A. Shamma, G. Friedland, B. Elizalde, K. Ni, D. Poland, D. Borth, and L.-J. Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016. 7

[33] T. Tieleman and G. Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, 4(2), 2012. 4

[34] M. Wang, B. Liu, and H. Foroosh. Factorized convolutional neural networks. arXiv preprint arXiv:1608.04337, 2016. 1

[35] T. Weyand, I. Kostrikov, and J. Philbin. PlaNet - Photo Geolocation with Convolutional Neural Networks. In European Conference on Computer Vision (ECCV), 2016. 6, 7

[36] J. Wu, C. Leng, Y. Wang, Q. Hu, and J. Cheng. Quantized convolutional neural networks for mobile devices. arXiv preprint arXiv:1512.06473, 2015. 1

[37] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang. Deep fried convnets. In Proceedings of the IEEE International Conference on Computer Vision, pages 1476–1483, 2015. 1

你可能感兴趣的:(深度学习,计算机视觉,神经网络)