Decoders Matter for Semantic Segmentation

Decoders Matter for Semantic Segmentation:Data-Dependent Decoding Enables Flexible Feature Aggregation


2019/03/12 Author:Yu Zhang

此篇论文被CVPR2019收录,由标题可知:在语义分割中decoder过程同样重要,那么在decoder当中最重要的是什么呢?没错就是上采样upsample。本文做的事情,最主要的就是提出了一种叫做DUpsampling的上采样操作,作者认为目前分割网络普遍采用的双线性插值并不是最优的上采样方法,于是探寻一种可以让粗糙的卷积网络输出更准确地向上采样的方法。在提出此上采样方法的同时也提出整个分割网络,在VOC数据集上达到了SOTA效果。DUpsampling过程如下图:

输出的特征图每个点,与CxN的矩阵W进行矩阵相乘,得到1xN这个向量,再将这1xN的向量reshape为2x2xN/4,就相当于把图上采样为原来的两倍。那么关键就在于这个矩阵W,是怎么得到的呢?

作者认为分割的label图像并不是独立同分布的,其存在结构信息,所以label Y可以几乎没有损失地进行压缩,或者说降维。于是作者就想一般的网络都是将特征图上采样到label大小再做loss,我们可不可以将labelY进行压缩,然后用原本特征图直接与其计算loss呢。




首先作者将Y以rxr为size等分成这些块,对于这些rxr大小的块,把他们拉成一个向量v,在这个向量上做一个压缩,再reshape成原本形状,形成压缩后的label图 Y·。对于压缩的方法,作者使用线性预测的方式,将向量乘以一个矩阵P,如上图中第一个公式,那么压缩变为的x如果想再恢复的话就需要乘以P的逆映射矩阵W。这个P及W我们可以通过在训练集中最小化v与重构出的v·来得到,如第二个公式。Loss由特征图上采样与label算loss变为了用DUpsampling为上采样方法的特征图与label算loss, 如最下面的公式。

你可能感兴趣的:(deeplearning)