Indices Matter: Learning to Index for Deep Image Matting

IndexNet

  • Idea
  • backbone
  • 实现

会议:ICCV-2019
论文:Indices Matter: Learning to Index for Deep Image Matting
官方Codes: https://github.com/poppinace/indexnet_matting
数据集:Adobe Image Matting Dataset,alphamatting.com

Idea

Encoder decoder结构在语义分割模型中广泛采用。

  • 其优点是:
    下采样可以降低运算量,增加感受野的大小,从而捕捉到更加高阶的语义信息。
  • 其问题是:
    理想的下采样应当去掉噪声,保留有效信息。而常用的Pooling方法简单粗暴。
    上采样过程中如何恢复细节信息?常用的双线性插值(FCN),反池化,反卷积也是简单粗暴的。

由于matting对语义和细节的要求高于语义分割,Encoder decoder结构的下采样和上采样造成的信息损失问题会更加突出。为了解决这一问题,作者提出了两点想法:

  • 借鉴了超分辨领域的Efficient Sub-pixel Convolution(periodic Shuffling)
  • 对比了DeepLab,SegNet,UNet等SOTA语义分割模型在matting任务上的表现。作者提出,反池化操作利用Index保留了空间信息,有助于matting任务上更好的表现。Indices Matter: Learning to Index for Deep Image Matting_第1张图片

结合以上两点想法,作者提出了Index block.

backbone

backbone基于MobileNet V2改造,其特点有:

  • MobileNet V2的Inverted Residual Block和Depthwise Conv +BN +ReLU
  • DeepLab的V3的ASPP 用在了encoder decoder的中间层
  • SegNet的Max Pooling和Max Unpooling做成的skip connection,Max Pooling和Max Unpooling分别替换成了作者提出的Indexed Pooling和Indexed Upsampling
    Indices Matter: Learning to Index for Deep Image Matting_第2张图片

实现

1. Index Block动态学习到上采样和下采样的Index。作者给出了两种实现

  • 第一种:HINIndices Matter: Learning to Index for Deep Image Matting_第3张图片

    Encoder输出C channels的feature map,其中每一个channel经过同一个convolution(2 stride,2 × 2 size, 4 channels),产生一个4 channels的feature map(总共产生4C channels的feature map)。这个4 channels的feature map按照position-wise的方式填充生成2倍size的Index map(Efficient Sub-pixel Convolution)

  • 第二种:DINIndices Matter: Learning to Index for Deep Image Matting_第4张图片

    Encoder的feature map分别经过4个不同参数的convolution(2 stride,2 × 2 size, C channels),生成4个不同的feature map,按照position-wise的方式填充生成2倍size的Index map(Efficient Sub-pixel Convolution)。
    (Note that the parameters of four convolutional layers are not shared)

2. Index Block学习到的Index map按照Indexed Pooling和Indexed Upsampling分别用于优化下采样和上采样
Indices Matter: Learning to Index for Deep Image Matting_第5张图片

Index map经过Sigmoid后用于优化decoder的上采样。
Index map经过Sigmoid后,再经过Softmax,用于优化encoder的下采样。
(The reason behind the second normalization is to guarantee the magnitude consistency of the feature map after downsampling)

  • Indexed Pooling
    Indices Matter: Learning to Index for Deep Image Matting_第6张图片

在下采样的过程中,学习到的index map以element-wise的方式点乘feature map,然后接Average pooling实现下采样,乘以常数4放大数值

  • Indexed UpsamplingIndices Matter: Learning to Index for Deep Image Matting_第7张图片
    对feature map作nearest neighbor interpolation实现上采样,接着以element-wise的方式点乘学习到的index map

你可能感兴趣的:(Matting,神经网络,深度学习)