空洞卷积(dilated convolution)

1.传统下采样

CNN在诸如分类(识别)任务中的处理过程一般是卷积、池化、全连接。这三种操作把数据转换成多个低维度特征,便于分类。如把一张128x416的图像转换成一个1x1x100的特征图,就可以做成一个100路分类器。

卷积、池化都是下采样操作。下采样降低数据的耦合性,增加了网络的不变性:一个像素和它周围的像素相耦合,所以可以通过下采样用更少的像素代替这部分像素;下采样也增加了网络的尺度和平移不变性。这在获取高维特征进行分类的任务中是很有用的。

一些结构化任务,如语义识别、深度估计,要产生的最终结果是和原图尺寸大小相同的结果图,也就是需要保持图像尺寸。如果把这些任务看成是对像素的分类,也可以通过传统的卷积、池化、全连接实现。按这种思路设计的网络框架就是一个编码器、解码器结构,如Zhou等人的深度估计网络的结构如下:

空洞卷积(dilated convolution)_第1张图片

在这样的结构中,卷积池化用于提取特征/编码数据。然后通过反卷积或线性插值扩大图像尺寸,使特征图恢复原始尺寸。

2.传统下采样的问题

该类问题有通用步骤:1.用池化扩大感受野范围,提取不同尺度特征;2.反卷积恢复图像尺寸。池化会丢失信息,因此如果能不用池化增大感受野,就不会丢失信息,也不需要反卷积。基于这个思路,YU等人2015年提出空洞卷积。空洞卷积的具体介绍和应用请结合Deeplab学习。

你可能感兴趣的:(深度学习)