Densely Connected Convolutional Networks

卷积神经网络(CNN)已经成为视觉对象识别的主要机器学习方法。
虽然它们最初是在20多年前推出的[18],但是计算机硬件和网络结构的改进使得真正深入的培训成为可能
最近才有CNN。
原来的LeNet5 [19]由5层组成,VGG的19个[28],去年公路网[33]和剩余网络(ResNets)[11]已经超过了100层的障碍。
随着CNN越来越深入,出现了一个新的研究问题:
当有关输入或渐变的信息通过多层时,它可以在到达网络的最后(或开始)时消失并“清除”。
许多最近的出版物解决了这个或相关问题
ResNets [11]和Highway Networks [33]通过身份连接将信号从一层旁路旁路到另一层。
随机深度[13]通过在训练期间随机丢弃层来缩短ResNets,以允许更好的信息和梯度流动。
分形网[17]重复地将几个并行层序列与不同数量的卷积块组合,以获得大的标称深度,
同时在网络中保持许多短路径。
虽然这些不同的方法在网络拓扑和训练过程中有所不同,但它们都具有一个关键特征:
它们创造了从早期层到较晚层的短路径。
在本文中,我们提出一种将这种洞察力简化为简单连接模式的架构:
为了确保网络中层之间的最大信息流,我们
直接连接所有图层(具有匹配的特征图尺寸)。
为了保持前馈性质,每个层从所有先前的图层获得额外的输入,并将其自己的特征图传递给所有后续的图层
层。
图1示意性地示出了该布局。
至关重要的是,与ResNets相反,
我们从来没有通过求和来组合特征,然后再将它们传递到一个层中;
相反,我们通过连接它们来组合功能。
因此,第l层有l个输入,
由所有先前卷积块的特征图组成。
它自己的特征图传递给所有L-l后续层。
这在L层网络中引入L(L + 1)/ 2连接,而不是仅仅
L,如传统架构。
由于其密集的连接模式,我们将我们的方法称为密集卷积网络(DenseNet)
这种密集连接模式的可能的反直觉效应是,它比传统的卷积网络需要更少的参数,因为不需要重新学习冗余的特征图。
传统的前馈架构可以被视为具有状态的算法,
这是从一层传递到另一层。
每个层从上一层读取状态并写入后续层。
它改变状态,但也传递需要保留的信息。 ResNets [11]通过加性身份转换使此信息保存显性。
ResNets的最新变化[13]表明,许多层次贡献很小,实际上可以在训练过程中随机丢弃。
这使得ResNets的状态与(未展开)复发神经网络相似[21],但是ResNets的参数数量大大增加
因为每个层都有自己的权重。
我们提出的DenseNet架构明确区分了这些信息
被添加到网络和保存的信息。
DenseNet层非常窄(例如,每层12个特征图),仅将一小组特征图添加到网络的“集体知识”,并保持剩余的特征图不变 - 
并且最终分类器基于网络中的所有特征图进行决定。
除了更好的参数效率,DenseNets的一大优点是它们改善了整个网络的信息流和流程,使其易于训练。
每一层都可以直接从损失函数和原始输入信号中获取梯度,从而导致隐含的深度监督[20]。
这有助于培训更深层次的网络架构。
此外,我们还观察到密集连接具有正则化效应,这减少了具有较小训练集大小的任务的过拟合。
我们在四个竞争激烈的基准数据集(CIFAR-10,CIFAR-100,SVHN和ImageNet)上评估DenseNets。
与现有算法相比,我们的模型往往需要比现有算法少得多的参数。
此外,我们在大多数基准任务上显着优于当前最先进的结果。








自从他们初步发现以来,网络架构的探索一直是神经网络研究的一部分。
最近神经网络普及的复苏也使得这个研究领域得到了重新发展。
现代网络中越来越多的层次放大了体系结构之间的差异
激发对不同连接模式的探索,重新研究旧的研究思路。
类似于我们提出的密集网络布局的级联结构已经在20世纪80年代的神经网络文献中被研究[3]。
他们的开创性工作着重于以逐层方式训练的完全连接的多层感知器。
最近,提出了要用批量梯度下降训练的完全连接的级联网络[39]。
虽然对小数据集有效,但这种方法只能扩展到具有几百个参数的网络。
在[9,23,30,40]中,通过跳过连接在CNN中利用多层次特征已经被发现对于各种视觉任务是有效的。
与我们的工作并行,[1]得出了一个纯粹的网络理论框架
跨层连接类似于我们的。
高速公路网[33]是第一个提供了有效训练100多层终端网络的方案的架构。
使用旁路路径与门控单元,可以有效地优化具有数百层的高速公路网络。
假设绕过路径是减轻这些非常深的网络训练的关键因素。
ResNets [11]进一步支持这一点,其中纯身份映射用作旁路路径。
ResNets在许多方面取得了令人印象深刻的创纪录的表现
具有挑战性的图像识别,本地化和检测任务,如ImageNet和COCO对象检测[11]。
近来,随机深度被提出成为一种能够成功培训1202层ResNet的方法[13]。
随机深度改善了深层残留网络的训练
在训练期间随机滴落层。
这表明不是所有的层都可能需要和
强调在深(残)网络中存在大量的冗余。
我们的论文部分受到这一观察的启发。
具有预激活的ResNets还有助于对具有> 1000层的最先进网络的训练[12]。
使网络更深入(例如,借助跳过连接)的正交方法是增加网络宽度。
GoogLeNet [35,36]使用“初始模块”,它连接不同大小的滤镜生成的特征图。
在[37]中,提出了具有宽广泛残差块的ResNets变体。
事实上,只要增加每层ResNets中的滤波器数量就可以提高其性能,只要深度就足够了[41]。
?分形网也可以使用广泛的网络结构在几个基准数据集上实现竞争结果[17]。
DenseNets不是从极其深刻或广泛的架构中提取代表性权力,而是通过功能重用来利用网络的潜力,产生易于训练和高度参数化的精简模型。
不同层次学习的连接特征映射增加后续层的输入变化,提高效率。
这是DenseNets和ResNets之间的主要区别。
与起始网络[35,36]相比,它也连接不同层的特征,DenseNets更简单,更高效。
还有其他显着的网络架构创新产生了竞争优势。
网络网络(NIN)[22]结构包括将微多层感知器插入到卷积层的滤波器中,以提取更复杂的特征。
在深度监督网络(DSN)[20]中,内部层被直接监督
通过辅助分类器,可以加强早期层次接收的梯度。梯形网络[26,25]将横向连接引入自动编码器,产生
半监督学习任务令人印象深刻的准确性。
在[38]中,提出了深融网(DFN),通过组合不同基网的中间层来改善信息流。
通过增加重建损失最小化路径的网络也被证明可以改善图像分类模型[42]

你可能感兴趣的:(网络模型)