2019 ICCV之image matting:Disentangled Image Matting

Disentangled Image Matting
当前的问题及概述
以前的大多数图像匹配方法都需要一个大致指定的trimap作为输入,并为trimap未知区域中的所有像素估计分数alpha值。直接从粗糙的Trimap估计alpha matte是先前方法的主要局限性,因为这种做法试图同时解决两个困难且本质上不同的问题:识别Trimap区域内的真实混合像素, 和为它们估算准确的alpha值。
提出了AdaMatting,一种新的端到端matting框架,将这个问题分解为两个子任务:trimap自适应(一种分类任务)和alpha估计(一种修正任务)。
Trimap自适应是一个像素级分类问题,它通过识别确定的前景、背景和半透明图像区域来推断输入图像的全局结构。Alpha估计是一个回归问题,计算每个像素的不透明度值。
模型及loss
2.1Trimap Adaptation:
定义最优trimapTopt如下:其中,agt表示ground-truth的alpha mattes,(x, y)表示图像上的每个像素位置。
2019 ICCV之image matting:Disentangled Image Matting_第1张图片
给定一个以trimap(可能是粗糙的)为条件的输入图像,将图像分割成离散的3个部分,rimap Adaptation旨在预测最优的trimap Topt。
2019 ICCV之image matting:Disentangled Image Matting_第2张图片
上图中,(a)输入图像(b)输入trimap ©我们的matting结果(d)对应trimap adaptation结果。
图中可以看到第一次输入的trimap中的未知区域很宽,而且是错误的,因为低质量的标签没有覆盖所有的头发。在对trimap进行调整后,不仅缩小了输出trimap的范围,而且对输出trimap进行了修正,得到了更可靠的trimap。
2.2 AdaMatting Network:
2019 ICCV之image matting:Disentangled Image Matting_第3张图片
Trimap adaption需要对物体的形状和结构有更多的语义理解,而图像匹配则更多地依赖于对光度线索的低层次利用。齐了同时解决这两个任务,共享中间部分的权重,以提高整个模型的性能。
框架中包括一个编码器(ResNet- 50)生成共享表示,然后是两个解码器(类似于U-Net结构),目的是学习从共享表示到所需输出的映射,t -解码器和a -解码器分别代表trimap解码器和alpha解码器,每个解码器由3×3个卷积层和上采样模块组成。在CE loss的指导下,trimap解码器输出3通道作分类任务。alpha解码器输出一个1通道的alpha estimation,该估计值输入给propagation unit以进一步细化。
propagation unit由两个res block和一个convolutional LSTM cell组成,将输入图像、trimap adaption和alpha estimation传播结果作为输入。ResBlocks从输入中提取特性,而convolutional LSTM cell可以在传播时keep memory,形成最终的alpha matte。下图展示了在这部分中如何细化alpha matte,可以看到,头发部分越来越精细,且模糊部分减少。
2019 ICCV之image matting:Disentangled Image Matting_第4张图片
2.3. Multi-task Loss:
本文的多任务是指trimap adaptation和 alpha estimation,Trimap自适应可以建模为一个分割任务,将输入图像分割为前景实、背景实和半透明区域。解决这类分割问题的过程会产生丰富的语义特征,而这些语义特征反过来又有助于解决图像的模糊问题。
我们采用task uncertainty loss来代替linearly combined loss,具体如下:
2019 ICCV之image matting:Disentangled Image Matting_第5张图片
T˜和α˜代表trimap adaptation 和 alpha estimation,σ1和σ2分别为各自的权重,LT和Lα带班表trimap adaptation loss 和 alpha estimation loss,trimap adaptation loss 为交叉熵loss,alpha estimation loss为,其中,Tu˜为像素点个数::
在这里插入图片描述
实验
不同结构比较:
2019 ICCV之image matting:Disentangled Image Matting_第6张图片
2019 ICCV之image matting:Disentangled Image Matting_第7张图片
2019 ICCV之image matting:Disentangled Image Matting_第8张图片
消融实验(“D-n”: Using n-dilation of GT alpha as input trimap. “Adobe”: Using testset trimap as input):
2019 ICCV之image matting:Disentangled Image Matting_第9张图片
总结
本文相较于17年的Deep Image Matting一文最大的区别是在进行将image和trimap通过CNN提取特征转化为alpha matte之前,加入了一个Trimap Adaptation操作,也即是说本文最大的特点是将一个image matting任务转化为一个多任务问题,本文的多任务是指trimap adaptation和 alpha estimation。
Trimap adaptation可以建模为一个分割任务,将输入图像分割为前景实、背景实和半透明区域。解决这类分割问题的过程会产生丰富的语义特征,而这些语义特征反过来又有助于解决图像的模糊问题。
alpha estimation部分和大多文章思路相似,但最大的特点是网络内部有一个编码器和两个解码器,两个解码器分别输出3通道的结构特性和1通道的每个像素的不透明度值信息,再将得到的有用的信息集合到一个模块再次refine,进一步细化了alpha matte。

你可能感兴趣的:(image,matting)