Multi-Scale Context Aggregation by Dilated Convolutions 总结


摘要

针对图像分割中像素的密集预测,开发了一种新的卷积网络模块。膨胀的卷积系统地聚合多尺度上下文信息而不丢失分辨率。
膨胀的卷积支持接收域的指数扩展。


前言

近年来,有两种处理多尺度推理和全分辨率密集预测的方法:

  1. 持续地从下采用层中反复使用up-convolutions(上卷积?)恢复损失的分辨率
  2. 提供多个重新扫描的图像最为输入到网络中,并结合这些多输入的预测

扩张的卷积

既然加pooling层会损失信息,降低精度,不加pooling层会使感受视野变小,学不到全局特征。那么去掉pooling层,扩大卷积核不就可以了,但是纯粹扩大卷积核势必导致计算上的灾难,此时空洞卷积就是好的idea。

如图:
Multi-Scale Context Aggregation by Dilated Convolutions 总结_第1张图片

图a,传统的卷积网络,接收域是3x3

图b,使用2-dilated convolution产生的扩张卷积核,接收域是7x7
图c,使用4-dilated convolution产生的扩张卷积核,接收域是15x15
容易看出,F_i+1每一个元素的接收域尺寸是 (2^i+2 -1)(2^i+2 -1)

同时,由于实际参与卷积的因子数量没有变,所以卷积的计算量没有变,但是卷积核的尺寸变大,导致特征图中一个特征值对应原来更大的区域,也就是可以获得更大的可是范围。


结构
Multi-Scale Context Aggregation by Dilated Convolutions 总结_第2张图片
网络结构

从Layer看出总共有8层,前7层卷积核大小为3x3,最后一层为1x1,因为空洞卷积会扩大图像尺寸,所以在前7层进行了边缘剪裁。同时dilation 从小到大,也就是从小区域的感知来获得局部特征到大卷积将特征分配到更多的区域中。


问题
  1. 因为空洞卷积使得卷积核不连续,损失了连续性信息
  2. 虽然空洞(膨胀)卷积可以获取更大的视野,但是不利于小物体的分割

你可能感兴趣的:(Multi-Scale Context Aggregation by Dilated Convolutions 总结)