Densely Connected Convolutional Networks,原文链接:https://arxiv.org/pdf/1608.06993.pdf
自从2016年何恺明大神提出ResNet后,众多神经网络的研究者似乎突然悟到了很多,各种利用short path来提升性能的结构如雨后春笋,层出不穷。有点名头的比如Stochastic depth、FractalNets,影响最大的就是这个康奈尔大学、清华、Facebook研究者联合搞的DenseNet。DenseNet可以算是short path类型网络的终极版了,它把每一层的输出都直连到了后面每一层的输入上。图1是论文原作者给的示意图,这个图漏画了总的输入数据的连接,总的输入也连到了其后的每一层输入上,所以对于一个L层的网络来说就有Lx(L+1)/2条连线。
搞这么多直连有什么好处呢?作者给了两个解释:
原因一:这种结构需要的参数更少。传统结构里靠后的某层如果要用到靠前的某层已提取过的特征,还得用卷积来重新提取;而DenseNet中某层的输出直连到之后的每一层,这些特征是不需要重新做卷积的,拿来就可以给后面层使用,对于这些靠后的层次来说唯一要用卷积来提取的,只有前面层次没有提取过的新特征,所以真正要用的卷积个数就少了,也就意味着总的参数更少。图2是个直观的比较 ,蓝色的特征是第n层提取出的特征在第m层重新恢复出来的结果(m>n),红色的特征是前m-1层都不曾出现过的新特征。上侧的传统结构可以看出无论是红色(k2个特征)还是蓝色(k1个特征)的特征都需要靠前面层的卷积才能得到;图2下侧的DenseNet(为了简化假设只有第n层直连到了第m层)可以看到只有红色的k2个特征才是卷积得到。比较而言下侧图就更节省参数。
原因二:梯度能通过直连直接传到靠前的层级,减少了梯度消失的可能性。
说完了原理再来看看DenseNet结构中的关键点:
1、DenseNet中某层的多个输入源不是直接算术相加,而是在特征维度上进行拼接(concatenate),这和ResNet的方法不同;
2、层与层间的直连只限于有相同尺寸的特征映射的层间,所以跨了Pooling的层就不要连了,图3是个典型的DenseNet网络,由三个DenseNet模块构成,模块内所有的层都会有直连线,而模块间靠卷积和Pooling来改变特征的尺寸;
3、如果在DenseNet模块中每一层的输入前都用1X1卷积降维,来减少计算量,这种结构作者取名叫DenseNet-B;
4、DenseNet模块中每一个卷积层前(包括1X1卷积)都会有BN,形成BN-Relu-1X1卷积-BN-Relu-3X3卷积的结构,完整地结构见图4;
5、不同的DenseNet模块间如果也用1X1 卷积来降维,这种结构作者取名叫DenseNet-C;
6、如果同时用到了第3点和第5点,这种结构就叫DenseNet-BC;
最后来看看DenseNet的实测结果,毕竟性能数据才是硬道理:
一:CIFRA和SVHN的测试结果:不同网络的结果比较见图5,C10代表CIFAR10数据,C100代表CIFAR100 数据,后面跟个"+"表示通过镜像、移位等操作来增大过数据集。 图5中的k叫做增长率,指DenseNet中每一个卷积层输出的特征数。
1、错误率:可以看到当网络深度为190、k=40时,DenseNet-BC达到了C10+3.46%、C100+ 17.18%的错误率;当网络深度为100、k=12时,DenseNet达到了SVHN 1.59%的错误率,这样的结果超过了同期所有其他的网络结构。
2、模型的能力:从图5可以看出,虽然用的是样本数极少的C10/C100,随着网络深度和增长率加大,错误率仍会降低,没有出现overfit,作者认为这是因为DenseNet在充分消化深度增长带来的性能提升,这能证明DenseNet有较强的能力。
3、参数的效率:作者作了两个比较--250层的DenseNet-BC有15.3M的参数,它的错误率和30M参数的FractalNet大致相当;100层、增长率为12的DenseNet-BC错误率和1001层的ResNet相当,但参数只有后者的90%。
二、ImageNet的测试结果
作者使用了ImageNet2012的数据,对源图片作了1次crop和10次crop两种测试,结果见图6。图7显示了DenseNet和ResNet在相同的错误率时需要的参数(左)和计算量(右)的比较,DenseNet明显有很大的优势。
总结:从测试来看,DenseNet有极高的参数利用率,在增大层数时也没有表现出overfit或准确率下降的问题,由于它利用了每一层输出的特征,信息提炼的更为彻底丰富,使得他的准确率更高。所以综合来看DenseNet是种很有前途的全新结构。