[CVPR2018] Convolutional Neural Networks with Alternately Updated Clique


论文链接: https://arxiv.org/abs/1802.10419  
代码链接: https://github.com/iboing/CliqueNet

Motivation: maximum information flow in the same block.
Properties:
1. 同一个stage中,每一层既是其他层的输入,也是其他层的输出。构成了一个loop
2. 传播的时候,新更新的层concatenate 到一起,更新前面的层,参数多次复用。
3. recurrent feedback structure可以实现浅层特征的refine,相当于加入了spatial attention。

Inspiration:
1. DenseNet


2. Residual network 
当各层网络参数共享时,residual network可以看作是RNN/LSTM,可以实现feature re-use & iterative learning。但是residual information只限制在相邻层之间使用。
3. Attention scheme
feedback connection 可以将高层的语义信息通过top-dowm的机制传回来,实现attention 功能。
节省参数的方法:
1. 只有stage-2的feature传递到下一层,因此相比于DenseNet——计算量随着层数的增加而增加,CliqueNet的参数量更少
2. 同一个stage中的各个层之间的权重在传播过程中是recycle的,不会增加额外的参数。
一.论文讲解
1. Clique Block
propagation:
stage1: 用输入X0对网络各层初始化,已经初始化的层concatenate到一起,更新剩下的层;
stage2: 各层交替迭代,bottom layer的参数concatenate,一起更新top layer参数,第i层的第k个loop迭代公式如下:
可见,迭代更新时是按从前往后的顺序更新的。第i层,i之前所有层已经完成第k次的更新,则第i层是由i之前的所有层第k次更新的结果和i之后所有层第k-1次更新的结果concatenate得到。每一次层的更新都是由其他层最新的更新结果得到的,这种top-down的方式实现了spatial attention。
2. Feature in different stage
stage2 的feature经过了refine with attention,因此包含更多的语义信息。将不同block的stage2 feature + x0通过global pooling 后concatenate到一起,送入loss function。不同block的feature相连实现了multi-scale feature maps.同时,只有stage2的feature会送到下一层中。
本文测试了不同的结构:
3. Extra Techniques
(1)Attention transition:CliqueNets中用的是spatial attention,这里加了channel attention,用的是SENet.不过只用在transition layer,控制输入下一层的通道数
(2)bottleneck&compression
二.实验结果
1. results on cifar and svhn
2. results on imagenet
3.other experiment
feature refinement


你可能感兴趣的:(深度学习)