论文阅读:DENSELY CONNECTED CONVOLUTIONAL NETWORKS

概述

作者观察到目前的深度网络有一个重要的特点是shorted connected,认为能够训练极深的网络很可能就是由于这个原因。 于是作者提出了Densely connected convolutional network, 该网络和ResNet类似,采用了短路链接。但是不同的是,在接收前层的feature maps时,ResNet采用了summation,而DenseNet采用的则是concated layer。作者认为这一小的改变影响了网络的feature reuse 方式。 Dense 体现在任何一层都能访问到前面各层的feature maps, 而且,任何一层的输入都能到达后续的各层(尽管Dense Block间需要经过transition layer(1*1的卷积+2*2的average pooling)访问)。

网络结构

一个Dense Patch 的结构:
论文阅读:DENSELY CONNECTED CONVOLUTIONAL NETWORKS_第1张图片

整个网络的结构:
论文阅读:DENSELY CONNECTED CONVOLUTIONAL NETWORKS_第2张图片

其中,DenseNet 包含3个Dense Blocks, Dense Block内部的每一个节点代表BN+ReLU+CONV,每个卷积层都是3*3*m的filter, 其中m 被称为growth rate. 若每个Dense Block有12层,输入到该block的feature map数为16,m=12, 则第一个Dense Block所有输出的concat起来的feature map 数是 16+12*12=160,transition layer是一个1*1的卷积,num_out 数保持和输入一致。这样,第二、三个的输出feature map 数分别是 160+12*12=304, 304+12*12=448.

若建立一个40层的DenseNet,除去第一个卷积层,两个transition layers, 1个Innerproduct layer, 每个Block的层数是(40-4)/3=12. 文中还提到100层的,则Block中的层数是(100-4)/3=32。

Experiments

在Cifar 10, Cifar 100, cifar 10+,cifar 100+, SVHN上取得了很好的效果。
从Accuracy, Capacity, Parameter effectiveness, Overfitting 四个方面进行说明。
首先Accuracy说DenseNet超过了state-of-art methods—–>之后Capacity说随着深度和growth rate的增加,效果也有提升——> 再者Parameter effectiveness说跟其他算法比相似参数效果较好—–> 最后,说因为参数少,所以不易过拟合。

分析

这篇文章最吸引我的是如何通过实验对该网络结构进行分析。
三个方面:parameter effectiveness(与ResNet相比能更有效的利用parameters, 说达到相同的accuray, 只需要ResNet大约一半的parameters)—-> implicity supervision(和DSN相比)—–>feature reuse(验证两方面:一是是不是后面的层都能用到前面各层的输出,二是使用前m层的feature map是不是足够的。用每层的每个channel上的filter的L2 norm表示对之前层的reuse程度。).

你可能感兴趣的:(深度学习论文阅读)