Henry_zhangs

EfficientNet 分类花数据集

1. EfficientNet 网络

2. depth、width、resolution

3. EfficientNet 网络的结构

4. dos 命令train 网络

5. 代码

5.1 model

5.2 dataset

5.3 utils

5.4 train

5.5 predict

1. EfficientNet 网络

EfficientNet 对网络的重要三个参数进行的探索：图像分辨率、网络的宽度、网络的深度

图像分辨率：特征图的size，h*w就是图像的空间分辨率

网络的宽度：网络中特征图的个数，也就是卷积核的个数或者输出的channel

网络的深度：网络的层数，resnet34，resnet101等等

如下：

2. depth、width、resolution

不知道从什么时候开始，224*224的图像分辨率输入似乎成为了神经网络的输入标准，导致后来的网络几乎输入都是224*224的尺寸大小

虽然有的网络规定是224*224大小，但是输入是别的尺寸例如300*300也没问题。这个是有问题的，因为大多数的代码，在全连接层之前用的是自适应池化层。

否则，输入的图像尺寸不正确会影响到全连接层的参数，就会报错

因此，在规定了分辨率的这一基础下，后面的网络都在width或者depth上面下功夫。例如resnet可以增加到1000层的深度

下面简单说说三个参数的作用

宽度：增加channel的数量 ,更广泛的网络往往能够捕获更细粒度的特征，并且更容易训练。然而，极宽但较浅的网络往往难以捕捉更高层次的特征。经验结果表明，当网络变得更宽且w更大时，精度很快饱和。

深度：增加网络的层数，缩放网络深度是许多卷积神经网络最常用的方法。更深入的ConvNet可以捕获更丰富和更复杂的特征，并在新任务上很好地泛化。然而，由于梯度消失问题，更深层次的网络也更难训练。尽管一些技术，如shortcut和批量归一化缓解了训练问题，但深度网络的精度增益会降低

分辨率:使用更高分辨率的输入图像，卷积可以潜在地捕获更细粒度的模式。其中更高的分辨率确实可以提高精度，但对于非常高的分辨率，精度增益会减少

作者得出的结论：

EfficientNet 提出，将这三个参数如何平衡的缩放是很重要的。因为，不同尺度尺度之间并不是相互独立的。直观地说，对于更高分辨率的图像，我们应该增加网络深度，这样更大的接受域可以帮助捕获在更大的图像中包含更多像素的相似特征。相应的，在分辨率较高时，也应增加网络宽度为了在高分辨率图像中捕获更多像素的细粒度模式。这些直觉表明，我们需要协调和平衡不同的缩放维度，而不是传统的一维缩放。

3. EfficientNet 网络的结构

EfficientNet 网络的基本模块称为 MBConv，首先采用1*1卷积进行升维度，然后dw卷积，然后经过了SE注意力机制，在1*1卷积降维，经过dropout。如果用shortcut的话，加在一起输出

其中SE注意力机制如下：

然后EfficientNet B0的结构如下：

EfficientNet B1 - B7 就是在B0的基础上增加了宽度和深度的超参数，当改变这两个数的时候，输入图像的size要手动的根据表格改变

4. dos 命令train 网络

-h 查看可以定义的参数，这里将epochs 设定为30

训练过程：

预测：这里只预测单张图像