EfficientNet阅读

EfficientNet:Rethinking Model scaling for Convolutional Neural Network

主要贡献

  1. 对模型缩放进行了系统性研究,发现仔细平衡网络的深度、宽度和分辨率可以带来更好的表现。
  2. 提出了一种新的模型缩放方法,使用一个简单但高效的复合系数统一调整模型的深度、宽度和分辨率。
  3. 模型缩放的有效性严重依赖于基线网络。更进一步,使用神经结构搜索开发了一个新的基线网络,并扩展它得到一系列模型,称之为EfficientNets。

Viewpoints

  1. 通常卷积网络设计的焦点在于发现最好的层结构。模型缩放试图去扩展网络长度、宽度和(或)分辨率,不用改变基线网络的结构。
  2. 随着模型加深可能遇到梯度消失问题,另外准确率增益优势消失。
  3. 缩放网络宽度通常用于小尺寸模型。但是非常宽但是深度不足的网络难以捕捉更高水平的特征。随着网络不断加宽,精确率快速饱和,增益优势缩小。
  4. 缩放网络分辨率,更高的分辨率提高了精度。但是对于非常高的分辨率,模型精确度增益逐渐消失。

计算逻辑

在小的基线网络上通过网格搜索的方法获取缩放系数a,b,y;然后直接迁移应用于另一些模型上。

EfficientNet阅读_第1张图片
EfficientNet阅读_第2张图片

训练参数及效果

  1. 在ImageNet数据集上训练,优化器采用RMSProp,decay0.9 、momentum 0.9; batch norm momentum 0.99;weight decay 1e-5; 初始学习率 0.256 ,每迭代2.4轮衰减到0.97倍;采用swish激活,自增强策略,采用幸存概率为0.8的随机深度;dropout正则化在取值在0.2-0.5范围内;
  2. 在EfficientNet-B0(结构类似于MnasNet)的基础上,固定a,b,y,调整φ得到B1-B7模型;
  3. 文章没有公布训练好的参数值a,b,y和φ;
  4. EfficientNet使用少一个数量级的参数实现了更高的准确率。
    EfficientNet阅读_第3张图片

论文

EfficientNet:RethinkingModelScalingforConvolutionalNeuralNetworks.
链接:论文地址

你可能感兴趣的:(深度学习)