Learning Transferable Architectures for Scalable Image Recognition

Abstract

  • 开发神经网络图像分类模型通常需要重要的架构工程。 在本文中,我们研究了一种直接在感兴趣的数据集上学习模型体系结构的方法。由于这种方法在数据集很大时很昂贵,我们建议在小型数据集上搜索架构构建块,然后将块传输到更大的数据集。这项工作的关键贡献是设计了一个新的搜索空间(我们称之为“NASNet搜索空间”),它可以实现可转移性。
  • 在我们的实验中,我们在CIFAR-10数据集上搜索最佳卷积层(或“单元格”),然后将此单元格应用于ImageNet数据集,方法是将此单元格的更多副本堆叠在一起,每个副本都有自己的参数来设计卷积架构,我们将其命名为“NASNet架构”。我们还引入了一种称为ScheduledDropPath的新正则化技术,该技术显着改善了NASNet模型的泛化。 在CIFAR-10本身,我们的方法发现的NASNet实现了2.4%的错误率,这是最先进的。 虽然不是直接在ImageNet上搜索单元,但是从最好的单元构建的NASNet在已发表的作品中实现了ImageNet上82.7%的前1和96.2%前5的最先进的准确度。我们的模型在前1个精度方面比最好的人工发明架构好1.2%,而FLOPS减少了90亿 - 与之前最先进的模型相比,计算需求减少了28%。在不同的计算成本水平进行评估时,NASNets的精度超过了最先进的人工设计模型。例如,小型版本的NASNet也实现了74%的前1精度,比同等大小的移动平台最先进的模型好3.1%。最后,从图像分类中学习的图像特征通常是有用的,并且可以转移到其他计算机视觉问题。 在对象检测的任务中,NASNet与Faster-RCNN框架一起使用的学习特征超过了现有技术的4.0%,在COCO数据集上实现了43.1%的mAP。

Introduction

  • 开发神经网络图像分类模型通常需要重要的架构工程。 从使用卷积体系结构进行ImageNet分类的开创性工作开始,通过体系结构工程的连续进步已经取得了令人瞩目的成果。
  • 在本文中,我们研究了一种设计卷积体系结构的新范例,并描述了一种可扩展的方法来优化卷积体系结构,例如ImageNet分类数据集。 我们的方法受到最近提出的神经架构搜索(NAS)框架的启发,该框架使用强化学习搜索方法来优化架构配置。然而,将NAS或任何其他搜索方法直接应用于大型数据集(例如ImageNet数据集)在计算上是昂贵的。 因此,我们建议在代理数据集上搜索一个好的体系结构,例如较小的CIFAR-10数据集,然后将学习的体系结构传输到ImageNet。我们通过设计搜索空间(我们称之为“NASNet搜索空间”)来实现这种可传输性,以便架构的复杂性与网络的深度和输入图像的大小无关。 更具体地说,我们搜索空间中的所有卷积网络都由具有相同结构但不同权重的卷积层(或“单元”)组成。因此,寻找最佳卷积架构被简化为搜索最佳单元结构。 寻找最佳的单元结构有两个主要的好处:它比搜索整个网络架构要快得多,而且单元本身更有可能推广到其他问题。 在我们的实验中,这种方法显着加速了使用CIFAR-10 7倍的最佳架构搜索,并学习了成功转移到ImageNet的架构。
  • 我们的主要结果是CIFAR-10上最好的架构,称为NASNet,在转移到ImageNet分类时没有太多修改就达到了最先进的精度。 在ImageNet上,NASNet在已发表的作品中实现了82.7%的前1名和96.2%的前5名的最先进准确度。 与最佳人类发明架构相比,这一结果在前1精度方面提高了1.2%,而FLOPS却减少了90亿。 在CIFAR-10本身,NASNet实现了2.4%的错误率,这也是最先进的。
  • 另外,通过简单地改变卷积单元的数量和卷积单元中的滤波器的数量,我们可以创建具有不同计算需求的不同版本的NASNets。 由于细胞的这种特性,我们可以生成一系列模型,在相同或更小的计算预算下实现优于所有人类发明模型的精度。 值得注意的是,最小的NASNet版本在ImageNet上实现了74.0%的前1精度,比以前设计的针对移动和嵌入式视觉任务的架构好3.1%。
  • 最后,我们展示了NASNets学到的图像特征通常是有用的,并转移到其他计算机视觉问题。 在我们的实验中,NASNets从ImageNet分类中学到的功能可以与Faster-RCNN框架[47]结合使用,以实现最大和移动优化模型的COCO对象检测任务的最新技术。 我们最大的NASNet模型的mAP达到43.1%,比先前的最新技术水平高出4%。

Related Work

  • 有一个神经网络与第二个神经网络相互作用以帮助学习过程,元学习的概念近年来引起了很多关注。 大多数这些方法都没有扩展到像ImageNet这样的大问题。 最近的一项例外工作是专注于学习ImageNet分类的优化器,并取得了显着的进步。我们的搜索空间的设计从LSTM [22]和神经结构搜索单元[71]中获得了很多灵感。 卷积单元的模块化结构也与ImageNet上的先前方法有关,例如VGG [53],Inception [59,60,58],ResNet / ResNext [20,68]和Xception / MobileNet [9,24]。

Method

  • 我们的工作利用搜索方法在感兴趣的数据集上找到良好的卷积体系结构。 我们在这项工作中使用的主要搜索方法是[71]提出的神经架构搜索(NAS)框架。 在NAS中,控制器递归神经网络(RNN)对具有不同架构的子网络进行采样。对子网络进行收敛训练,以便在保持的验证集上获得一定的准确性。 由此产生的精度用于更新控制器,以便控制器随着时间的推移产生更好的架构,使用策略梯度更新控制器权重。
  • Learning Transferable Architectures for Scalable Image Recognition_第1张图片
  • 这项工作的主要贡献在于设计一个新颖的搜索空间,使得在CIFAR-10数据集上找到的最佳架构可以在一系列计算设置中扩展为更大,更高分辨率的图像数据集。我们将这个搜索空间命名为NASNet搜索空间,因为它产生了NASNet,这是我们实验中发现的最佳架构。 NASNet搜索空间的一个启示是认识到CNN的架构工程通常会识别由卷积滤波器组,非线性和谨慎的连接选择组成的重复图案,以实现最先进的结果(例如重复模块) 出现在Inception和ResNet模型中。这些观察结果表明,控制器RNN可能预测以这些基序表示的通用卷积细胞。 然后可以将该单元串联堆叠以处理任意空间维度和滤波器深度的输入。
  • 在我们的方法中,卷积网的整体架构是手动预定的。 它们由重复多次的卷积细胞组成,其中每个卷积细胞具有相同的结构,但具有不同的权重。 为了轻松构建任何大小的图像的可扩展架构,我们需要两种类型的卷积单元,以便在将特征映射作为输入时提供两个主要功能:
  1. 卷积单元格返回相同维度的要素图
  2. 返回特征映射的卷积单元格,其中特征映射的高度和宽度减少了两倍。
  • 我们分别命名第一类和第二类卷积细胞正常细胞和还原细胞。 对于还原单元,我们使应用于单元输入的初始操作有两个步长来减小高度和宽度。 我们考虑用于构建卷积单元的所有操作都可以选择跨越。Learning Transferable Architectures for Scalable Image Recognition_第2张图片
  • 图2显示了我们为CIFAR-10和ImageNet放置正常和缩小单元。 关于ImageNet的注意事项,我们有更多的还原单元,因为输入图像大小为299x299,而CIFAR为32x32。 Reduce和Normal Cell可以具有相同的架构,但我们凭经验发现学习两个独立的架构是有益的。 当空间激活大小减小时,我们使用常见的启发式方法将输出中的滤波器数量加倍,以便保持大致恒定的隐藏状态维度。 重要的是,很像Inception和ResNet模型,我们将主题重复次数N和初始卷积滤波器的数量视为自由参数,我们根据图像分类问题的规模来定制。
  • 卷积网络中的变化是正常和缩减单元的结构,其由控制器RNN搜索。 可以在如下定义的搜索空间内搜索单元的结构(参见附录,图7的原理图)。 在我们的搜索空间中,每个单元接收两个初始隐藏状态作为输入,它们是前两个下层或输入图像中的两个单元的输出。 在给定这两个初始隐藏状态的情况下,控制器RNN递归地预测卷积单元的其余结构(图3)。 控制器对每个单元的预测被分组为B个块,其中每个块具有5个预测步骤,由5个不同的softmax分类器对应于块的元素的离散选择:
  • Learning Transferable Architectures for Scalable Image Recognition_第3张图片Learning Transferable Architectures for Scalable Image Recognition_第4张图片
  • 该算法将新创建的隐藏状态附加到现有隐藏状态集合作为后续块中的潜在输入。 控制器RNN重复对应于卷积单元中的B块的上述5个预测步骤B次。 在我们的实验中,选择B = 5提供了良好的结果,尽管由于计算限制我们没有详尽地搜索这个空间。在步骤3和4中,控制器RNN选择应用于隐藏状态的操作。 我们根据他们在CNN文献中的流行情况收集了以下一系列操作:Learning Transferable Architectures for Scalable Image Recognition_第5张图片
  • 在步骤5中,控制器RNN选择组合两个隐藏状态的方法,或者(1)两个隐藏状态之间的逐元素相加或(2)沿滤波器维度的两个隐藏状态之间的级联。 最后,在卷积单元中生成的所有未使用的隐藏状态在深度上连接在一起以提供最终的单元输出。为了允许控制器RNN预测正常细胞和还原细胞,我们简单地使控制器总共具有2×5B预测,其中第一5B预测用于正常细胞而第二5B预测用于还原细胞。
  • 最后,我们的工作利用了NAS中的强化学习方案; 但是,也可以使用随机搜索来搜索NASNet搜索空间中的体系结构。 在随机搜索中,我们可以从均匀分布中对softmax分类器中的决策进行采样,而不是对来自控制器RNN中的softmax分类器的决策进行采样。 在我们的实验中,我们发现随机搜索比CIFAR10数据集上的强化学习略差。 虽然使用强化学习有价值,但差距小于原始工作[71]。 该结果表明1)NASNet搜索空间构造良好,使得随机搜索可以很好地执行,2)随机搜索是难以击败的基线。
  • Learning Transferable Architectures for Scalable Image Recognition_第6张图片

Conclusion

  • 在这项工作中,我们演示了如何从传输到多个图像分类任务的数据中学习可扩展的卷积单元。 学习的架构非常灵活,因为它可以根据计算成本和参数进行缩放,以轻松解决各种问题。 在所有情况下,所得模型的准确性超过了所有人工设计的模型 - 从为移动应用设计的模型到旨在获得最准确结果的计算重型模型。
  • 我们方法的关键见解是设计一个搜索空间,将架构的复杂性与网络的深度分离开来。 由此产生的搜索空间允许在小数据集(即,CIFAR-10)上识别良好的体系结构,并将学习的体系结构传送到跨越一系列数据和计算规模的图像分类。
  • 由此产生的体系结构在CIFAR-10和ImageNet数据集中接近或超过了最先进的性能,其计算需求低于人类设计的体系结构。 ImageNet结果特别重要,因为许多最先进的计算机视觉问题(例如,物体检测[28],人脸检测[50],图像定位[63])从ImageNet分类模型中获取图像特征或体系结构。 例如,我们发现从ImageNet获得的图像特征与FasterRCNN框架结合使用可实现最先进的物体检测结果。 最后,我们证明我们可以使用最终的学习架构来执行ImageNet分类,减少计算预算,优于针对移动和嵌入式平台的流线型架构。

你可能感兴趣的:(论文大全)