空洞卷积与RFBNet--------网格问题

前言: 最近在看RFBNet,其中提到ASPP结构的缺陷,当时不太理解,回去重新看了一下dalited conv


一、dalited conv的缺陷

    问题1:gridding effect

     众所周知,空洞卷积在不增加参数的情况下扩大了卷积的感受野,但是与此同时带来了一个比较严峻的问题。由于空洞卷积在特征图上是离散的采样,缺乏相关性(个人认为这种操作在单独使用dalited conv时是一种优点),但是在dalited conv连续堆叠的情况(如下图)下, kernel 并不连续,也就是并不是所有的 pixel 都用来计算了,因此这里将信息看做 checker-board 的方式会损失信息的连续性,这就是所谓的gridding问题。

 

空洞卷积与RFBNet--------网格问题_第1张图片

问题2:远距离获取的信息没有相关性

     从dalited conv的机理上我们也可以看出,它稀疏的采样输入信息,对于大目标的语义信息获取会取得比较好的结果,但是会丢失局部信息,对于小目标来说,由于间隔过大,单独的使用dilated conv可能会丢失小目标。

二、感言

    RFBNet本身并非针对Gridding问题而设计,但笔者感觉其无心插柳解决了这个问题。下面放一张RFBNet的结构图,其精妙之处在于dilated卷积前一层的设计,核心在于dilated的采样点处,使用对应尺寸的传统卷积来计算。如下图所示,rate=3的dilated conv其前一层使用3*3的传统卷积,rate=5的dialted conv其前一层采用5*5的传统卷积,即利用了dilated卷积未采样的信息,又突出了dilated conv采样点。

 

                                               空洞卷积与RFBNet--------网格问题_第2张图片

ps:   1.从感受野上来说,RFBNet其实与inception结构相同,其差异性a、在于inception结构为了获得大的感受野需要使用大尺寸的卷积核(计算量大)b、inception结构各采样点的权重相等,而RFBNet由于针对不同rate的dilate conv,在其前一层使用不同尺寸的传统卷积,这种精妙的设计突出采样了中心点的重要性,符合人眼视觉皮层神经元的特性,离中心越近的像素越重要。

         2. RFBNet与ASPP的差别在于dilated conv前一层使用的卷积尺寸不同,ASPP在dilated之前使用同样尺寸的传统卷积,使得在dilated的rate较大时仍然存在gridding效应。

参考资料:

【1】https://www.zhihu.com/question/54149221/answer/323880412

【2】https://zhuanlan.zhihu.com/p/50369448

【3】 https://zhuanlan.zhihu.com/p/48424079

 

你可能感兴趣的:(目标检测)