[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

题目:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
作者:GOOGLE Mingxing Tan Quoc V. Le

Motivation:
作者认为网络的扩展是对效果有很大帮助的,但是人们一直没有找到一个有效的扩展方法。通过人工去调整 depth, width, resolution 的放大或缩小的很困难的,在计算量受限时有放大哪个缩小哪个,这些都是很难去确定的。作者发现在网络扩展时,通过平衡网络的深度、宽度、像素大小之间的关系来建模,可以取得惊人的效果,因此提出EfficientNet.
还是先看效果图:

[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第1张图片

Related Works:
计算accuracy:
单stage:
在这里插入图片描述
多stage:
在这里插入图片描述

[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第2张图片
作者得出accuracy 与(d,w,r)有关。

又做实验发现,单独增加某一项参数很快就达到瓶颈了。
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第3张图片
因此,提出 Compound Scaling。
又做了Compound Scaling的实验:
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第4张图片
作者得出必须 balance all dimensions of networkwidth, depth, and resolution(使d, w, r 均衡的进行扩展),因此作者提出以下方法:
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第5张图片
其中 β \beta β γ \gamma γ在约束上会有平方,是因为如果增加宽度或分辨率两倍,其计算量是增加四倍,但是增加深度两倍,其计算量只会增加两倍。
首先:固定公式中的φ=1,然后通过网格搜索(grid search)得出最优的α、β、γ,得出最基本的模型EfficientNet-B0.最后作者找到 α = 1.2,β =1.1,γ = 1.15。
作者在文中3次提到 a small grid search,好像没说怎么做的,不过在参考论文中猜想应该是用的MnasNet
其次:固定α、β、γ的值,使用不同的φ,得到EfficientNet-B1, …, EfficientNet-B7

得到模型后就是大量的Experiments

Experiments
就这样一路碾压经典网络,还是不多说直接上图:
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第6张图片
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第7张图片
8个数据集中干掉了5个top 1
[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks_第8张图片
我觉得这篇论文的最大功臣应该属于被作者轻描谈写的MnasNet,及作者的Compound Scaling思路。
【完】

你可能感兴趣的:(DPL)