【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION

Gao Huang(Cornell University),  ICLR 2018 best Papers

文章链接:https://arxiv.org/pdf/1703.09844.pdf

代码链接:https://github.com/gaohuang/MSDNet

        本文由香奈儿大学的几位教授撰写,获得ICLR2018最佳论文。文章基于CNN,提出一种图像分类方法:在现实中对图像分类难度不一,采用一个固定的框架对图片进行分类时有时不够灵活,比如使用复杂网络对简单图片分类比较浪费资源,而使用简单网络对复杂图片进行分类效果又不够好。文章提出下图的网络架构:

【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION_第1张图片

        主要思想就是在一个网络中有多个分类出口,对于简单图像可以直接从前面某个分类出口得到结果,而难分类的网络可能要到网络后面的某一层才能得到可靠的结果,而且这些分类出口并不是简单在一个网络的一些层直接引出,毕竟浅层特征直接用来分类的效果是非常差的,因此采用的是multi-scale的特征。

        文章的两个setting是Anytimeprediction和Budgeted batch classification。Anytime prediction部分通过设置阈值budget,相当于计算资源的限制条件,相当于每次给模型输入一张图像,然后根据计算资源限制来给出预测结果。budgeted batch classification中是对每一个batch的输入图像都有一个computationalbudget B>0,假设这个batch里面包含M张图像,那么可能简单图像的耗时要小于B/M,而复杂图像的耗时要大于B/M。

       文章的的两个核心结构是multi-scale feature mapsanddense connectivity。其中multi-scalefeature maps

文章解决的两个核心问题:

问题1:传统神经网络学习图片特征是通过前面层次的fine scale和后面层次的coarse scale完成,分类器的分类精度与分类器的位置高度相关,位于前面的分类器由于缺乏coarse scale导致分类效果较差。

解决1multi-scalefeature maps

Thefeature maps at a particular layer and scale are computed by concatenating theresults of one or two convolutions: 1. the result of a regular convolutionapplied on the same-scale features from the previous layer (horizontalconnections) and, if possible, 2. the result of a strided convolution applied onthe finer-scale feature map from the previous layer (diagonal connections). Thehorizontal connections preserve and progress high-resolution information, whichfacilitates the construction of high-quality coarse features in later layers.The vertical connections produce coarse features throughout that are amenableto classification.

问题2:前面的分类器会影响后面的分类器分类效果。

解决2:Dense connectivity。Dense connectivity将每一层与相关的层全部连接起来,允许后面的层通过短期优化的特征,使得最终的分类器仍然保持很高的准确度。而且最终分类器的分类效果与中间分类器无关。

       本文提出的MSDNet如图:

【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION_第2张图片

         文章使用的数据集:CIFAR-10, CIFAR-100(Krizhevsky & Hinton, 2009) and ILSVRC 2012,对数据进行了data-augmentation预处理。

       使用的loss function: Lgistic loss functions

       训练使使用SGD更新梯度。




你可能感兴趣的:(机器学习)