[深度学习论文笔记][arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transf

[arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transformations?

Aharon Azulay and YairWeiss

from Hebrew University of Jerusalem

paper link

Introduction

深度卷积网络在设计时采用了诸如max池化等模块来提高模型对输入图像中可能存在的微小平移、旋转和变形的鲁棒性。以期深度分类网络在面对人类可以轻松应对的图像变化时,也能有稳定的分类性能。

但是在作者的实验中,深度分类网络并没有表现出预期的性质。以在Imagenet数据库上预训练的InceptionResNet-V2模型为例,在一些肉眼难以感受的图像变化下,网络分类的置信概率会发生较明显的变化,如下图所示。同时对于越深的网络这种现象越显著,例如InceptionResNet-V2的现象显著于ResNet-50显著于VGG16。

[深度学习论文笔记][arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transf_第1张图片

这篇文章中,作者对深度卷积网络不能很好应对图像微小变化(重点在于微小平移)的原因做了两点猜测和探究:

  1. 网络自身结构(特别是降采样)的原因;
  2. 训练数据分布偏差的原因。

Ignoring the Sampling Thereom

作者认为第一点造成该现象的原因在于网络自身的结构。详细来说是在于网络中的降采样导致的。理论上讲,如果网络全是不带有步长(stride)的卷积操作,则输入像素在空间上的微扰也应该反映在输出特征上。即图像变化时,特征结果没有发生数值变化,而是仅仅随着在空间上相应的移动。但是网络中存在了具有步长的降采样操作后,如[1]中所说,输入信号必须在平移了降采样倍数整数倍的时候才能显示出特征的平移不变性。

We cannot literally expect translation invariance in a system based on convolution and subsampling: translation of the input signal cannot produce simple translations of the transform coefficients, unless the translation is a multiple of each of the subsampling factors in the system.

例如对于InceptionResNet-V2模型来说,其对输入图片的降采样倍数为45倍(指输入图片尺寸与global average pooling之前的特征图尺寸的比较),在所有的平移操作中,只有 1/452 1 / 45 2 的操作才能体现出特征的平移不变效果。

作者也从香农采样定理的角度严格说明了什么是平移不变的操作。细节可以在论文里查阅。

Why don’t modern CNNs learn to be invariant from data?

作者认为抛去网络结构本身的制约不谈,从数据中学习平移不变性(乃至对其他空间变化的不变性)是可能的。但是现有数据库存在的数据偏置(dataset bias)阻碍了这种学习过程。

作者在Imagenet数据库上使用物体包络框(bounding box)标注统计了900类物体在图片中的位置和尺寸分布,发现其分布并不服从均匀分布( P<1010 P < 10 − 10 )。从另一个直观的例子来看,作者统计了”Tibetan terrier”一类中,狗的瞳孔的位置和尺寸分布情况,如下图所示。可以看到其分布有明显偏置,并没有覆盖所有的空间和尺寸情况。而这种偏置是摄影师和数据采集者带来的。

[深度学习论文笔记][arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transf_第2张图片

从这个角度来看,当网络遇到没有见到过的物体尺寸和物体位置时,性能会出现下降。作者将深度网络在Imagenet上表现出色的原因归结为数据库的测试集和训练集来源相近,因此具有相似的数据偏置。

同时作者认为,模型训练时所使用的数据增广方法,如镜像、随机裁剪、随机拉伸防缩等等只能一定程度上缓解数据库偏置带来的不利因素,效果有限。而测试时使用多尺度、镜像输入、随机裁剪等策略也可以缓解这一问题,但鉴于过高的计算代价,这种方法效率极低。

Reference

[1] Eero P Simoncelli, William T Freeman, Edward H Adelson, and David J Heeger. Shiftable multiscale transforms. IEEE transactions on Information Theory, 38(2):587–607, 1992.

你可能感兴趣的:(深度学习论文笔记)