2020 TIP之image matting:BACKGROUND MATTING

BACKGROUND MATTING
当前的问题及概述
目前的alpha matting方法主要依赖于trimap来指导estimate alpha。
而本文研究了除了trimap信息外的背景信息和alpha信息进行estimate alpha。
模型及loss
2.1 Generator G
本文提出的AlphaGan-BG Network是建立在第一个提出的GAN来估计alpha matte的AlphaGAN: Generative adversarial networks for natural image matting一文基础上。
在生成器部分,主体是编码解码器。由7通道输入,(3通道RGB图像,3通道背景信息,1通道trimap),编码器基于在ImageNet上预训练的ResNet50架构,其中ResNet的第3块和第4块的卷积分别被r=2和4的扩张卷积取代。同时为了在多个尺度上重新采样特征,在ResNet块4后添加了Atrous Spatial Pyramid Pooling (ASPP)模块。解码器同AlphaGAN,只有一组卷积层,并与编码器跳连接,最后通过sigmoid作为激活函数输出。
2020 TIP之image matting:BACKGROUND MATTING_第1张图片
2.2Discriminator D:
本文的判别器采用Image-to-Image Translation with Conditional Adversarial Networks提出的PatchGAN中的判别器结构。D输入是7通道。真实的输入是由使用真值alpha,背景和trimap的原始组合构成的。假的输入包含了G生成的alpha,背景和trimap。目的是通过D对真假图像的判断,使得G输出更清晰、更接近输入图像的结果,进而解决了区分前景和背景的问题。
2.3 Loss Functions:
使用了3个loss进行训练:alpha-prediction loss,Lalpha是所有像素的ground truth和预测 alpha值的绝对差值。compositional loss,Lcomp 是使用ground truth alpha合成图像与使用predicted alpha合成图像的绝对差值。adversarial loss ,在本研究中,G的目标是生成接近于ground truth的alpha matte,而D的目标是区分真假输入,目标使G最小化LGAN:
在这里插入图片描述
实验
数据集采用Deep Image Matting中提出的Adobe Matting dataset,由431幅用于训练的前景图像和50幅用于测试的图像组成。为了扩充数据,使用Pascal VOC 2008和MSCOCO图像作为图像合成的背景,得到一个包含43100张图像的训练集。
2020 TIP之image matting:BACKGROUND MATTING_第2张图片
与其他结构比较:
评价标准:绝对差(SAD)、均方误差(MSE)、连通性(CONN)和梯度误差(GRAD)
AlphaGan-BG_M(轻度失真),AlphaGan-BG_H(严重失真)
2020 TIP之image matting:BACKGROUND MATTING_第3张图片
总结
本文最大的不同点在于,也体现在了标题中,就是对于图像背景的matting任务,在以往的任务中,只是用trimap而忽略背景对指导alpha estimate 。基于此,文章采用了GAN网络区分前景和背景的问题。
在G部分,文章对AlphaGAN的G部分进行改进,生成图像的alpha、trimap和背景部分;在D部分,文章通过PatchGAN的D部分,进行输入为7通道的一个判别任务,目的是通过D对真假图像的判断,使得G输出更清晰、更接近输入图像的结果,进而解决了区分前景和背景的问题。

你可能感兴趣的:(image,matting,GAN,人工智能,计算机视觉,深度学习,卷积)