论文阅读笔记 Convolutional Networks with Adaptive Computation Graphs

一、内容介绍
深度卷积网络可以用来解决很多计算机视觉问题,其中对于图像分类问题网络深度对于分类性能很重要,ResNet网络通过添加恒等映射解决梯度消失的问题以允许训练更深的网络,但是这些网络模型架构对于任何输入图像都是固定的,然而有研究表明ResNet的每一层都可以被移除而性能几乎不受影响,也就是几乎没有一个单独的层对性能至关重要,所以在各个层之间存在高度的冗余。所以一个固定的网络架构可能是不需要的,例如在执行了几层以后网络已经分辨出图像中有一只狗,它可以直接去执行能分辨是哪个品种的狗的层,跳过中间一些专门识别其他方面的层。
因此本文提出一种网络Adanets,自适应计算图的卷积网络,架构与Resnet网络类似,不同在于每个残差层都由一个门控函数来决定是执行还是跳过,这样就可以基于输入图像调节计算架构。
论文阅读笔记 Convolutional Networks with Adaptive Computation Graphs_第1张图片
图1
二、相关研究
Resnet主要是添加了一个恒等映射,highway network主要是对恒等映射和残差层做了一个比例相加,SE网络可以从全局信息出发来选择性的放大有价值的特征通道并且抑制无用的特征通道,这三种和本文的方法都有类似之处,最重要的不同是它们都要执行网络的每一层。
三、Adanets门控函数的实现
论文阅读笔记 Convolutional Networks with Adaptive Computation Graphs_第2张图片
图2
设Fl(·)是第l层的计算函数,xl表示第l层的输出,则将Resnet表示为xl = xl−1 + Fl (xl−1),Adanets可表示为xl = xl−1 + z(xl−1)·Fl (xl−1),z(xl−1) 是的取值范围是{0,1},z(xl−1)就是门控函数,值取决于上层输出。如图2,门控单元的实现分为两部分:
(1)估计概率。首先将上一层的输出xl−1做一个global average pooling:在这里插入图片描述 ,这样将输入压缩成了11C的通道描述器,然后通过全连接层和激活函数捕获通道间的依赖关系,达到降维的效果,再通过一个全连接输出一个β二维向量在这里插入图片描述 ,该向量中的两个数分别表示执行和跳过该层的log概率。
(2)Greedy Gumbel采样。由于z(xl−1)是离散函数不可微,不能和卷积网络一起训练,所以用Gunbel-Max的方法模拟离散概率分布的样本并采样。在这里插入图片描述 Gk是独立同分布的标准Gumbel分布的随机变量,这里argmax函数不连续,所以用softmax代替,即 在这里插入图片描述,其中logαk=βk,Gk是随机噪声,τ是softmax的温度系数,将(1)求得的β向量代入,就可以求得X向量,根据X向量中Xk的大小来取样。

四、训练Adanets

门控函数可以和卷积架构一起进行训练,训练的损失函数分为两部分,一部分就是基本的多分类log损失LMC,另一部分是对网络中每一层执行率的惩罚 在这里插入图片描述,我们鼓励每一层被执行率为t, 在这里插入图片描述表示l层在一个minibatch中实际被执行的比例,通过Ltarget可以调整期望的计算时间。总的训练损失为在这里插入图片描述 ,λ在不同的损失项之间权衡。为了阻止各层在早期训练中达到极端状态,比如有的层从来不被执行,做了以下两个改进,第一,初始化门控函数偏向于开即每层都偏向被执行的状态,保证每层在早期训练中都得到充分的学习;第二减小门控函数的学习率,在各层门状态需要变得有差别之前留下更多时间来建模数据。
五、实验及结论
(1)CIFAR数据集上的实验。
模型配置:基于Resnet110构建Adanets110,基于wide Resnet 89构建wide Adanets 89,还有Resnet110和Resnet89、Stochastic Depth;训练细节:所有模型都用随机梯度下降法来训练,动量因子为0.9,weight decay为5 × 10−4.所有模型都用一个256大小的minibatch训练350次。
实验结果:Adanets明显优于Resnet,错误率低,计算少;为了分析网络如何分配计算,统计了对于不同类别的输入图片在Adanets110和wide Adanets 89中不同层的执行率,从实验结果看出降采样层执行率特别高表示它在网络中至关重要,一般在网络的后面层能看出不同类执行不同层的变化。
(2)ImageNet数据集上的实验
模型配置:Resnet 50、Adanets 50、Resnet 18、Resnet 34;训练细节:所有模型都用随机梯度下降法来训练,动量因子为0.9,weight decay为 10−4.所有模型都用一个256大小的minibatch训练130次。
实验结果:Adanets 50比Resnet 50减小了33%的计算成本但性能只下降了一点,比更小但是计算成本更高的Resnet 34表现更好,这表明Adanets可以在不牺牲性能的情况下可以减少计算成本。另外我们从该实验中仍然能观察到不同类别的输入图像所执行的网络的层是有差异的,而且能观察到像降采样层还有最后一层对每一种类别都是要被执行的,可以分辨出网络中至关重要的层和不太重要的层。
(3)对对抗攻击的鲁棒性
为了验证在对抗攻击的情况下门控函数对整个网络的稳健性的影响,在Resnet 50和Adanet 50上执行了一个快速梯度标志攻击FGSM,它们都是在ImageNet上训练的,从实验中观察到随着攻击强度增大,Adanets 50一直保持比Resnets 50更加强壮。
为了进一步了解对抗性攻击对门控机制的影响,做实验观察攻击前后各层的执行率,以鸟类为实验对象,观察到攻击前后各层的执行率几乎没变化。
以上实验说明对抗攻击下门控函数是具有鲁棒性的。
(4)总结
本文介绍了Adanets:具有自适应计算图的卷积网络。 Adanets可以自适应地确定每个输入要执行的网络层。在CIFAR-10和ImageNet的一系列实验中,证明了Adanets是一种有效的方法,可以在不影响性能的情况下缩短计算时间。此外,Adanets能学习针对数据不同子集的专门执行层,并生成不同的类别-特定计算图。最后,与普通的Resnet相比,Adanets在对抗攻击时表现出更强的稳健性。

你可能感兴趣的:(IT,自适应图的卷积神经网络,深度神经网络,人工智能,论文阅读,Convolutional,Networks,with,Adaptiv)