论文阅读——Deep Image Matting

一、摘要

强调image matting(抠图)的现实意义。已有的算法在前景和背景颜色相似或者拥有复杂的纹理时表现较差,主要原因有两个,一个是只运用到低维特征,另一个是缺少高维语境。所以这篇论文提出了深度模型算法可以解决上述两个问题。模型主要包括两个部分。第一部分是一个深度卷积编码-解码网络。这部分的输入包括图片和图片对应的二分图(trimap),输出是 预测的图片对应的alpha matte。第二部分是一个小的卷积神经网络,用于微调第一部分获取的预测alpha图,并获得更锐利的边缘。另外,这篇论文的贡献在于创造了一个拥有49300张训练图片和1000张测试图片的数据集。

二、论文方法

论文阅读——Deep Image Matting_第1张图片

论文提出的网络由两个stage构成。第一步是一个深度卷积的encoder-decoder,其输入是原始图片和对应的trimap。并且这一阶段的损失计算包括alpha估计的误差和组合误差。第二步是一个完全卷积网络,用于调整第一步获得的alpha估计,获得更加精确的alpha值和更确切的边缘。具体描述如下:

1、 Matting encoder-decoder stage

网络结构:原始图像和trimap concate为4通道的输入,encoder包括14层的卷积层和5层的最大池化层。而decoder采用了更小的结构减少参数,包括6个卷积层和5个unpooling层(unpooling层即为最大池化层的逆过程,主要是补零的操作)

损失函数:包括alpha预测误差和组合误差。alpha误差比较直接,是预测值和准确值差的平方再开根号,但是担心其不可微性,还加了个扰动项。而组合误差则是RGB各通道的差值。

alpha的估计损失:

其对应的倒数为:

论文阅读——Deep Image Matting_第2张图片

compositional组合损失:

总的loss为前面两项的组合项:

论文中参数\omega_l取0.5,使得两部分loss等比例进行加权。但是也提到了在trimap的未知区域,设置为1,使得网络更专注于重要区域。

2、Matting refinement stage

虽然上一步获得的alpha估计已经明显好于其他现存的matting算法,主要是得益于encoder-decoder的结构。但是为了获得更精细化的结果,这一步主要是调整alpha估计并获得更清晰的边缘。

网络结构:输入为第一阶段的alpha估计和原图,concat在一起获得一个四通道的输入。输出是对应的alpha matte。这一阶段的网络是完全的卷积结构,包括4个卷积层,前三个卷积层每个之后都跟随了一个非线性的relu层。在网络中还加了一个skip的操作,将输入数据的第四通道先缩放到0-1,然后加入到网络的输出部分。

在实现过程中,论文先更新encoder-decoder部分直到收敛,然后再更新第二阶段的网络,损失约束只有alpha估计。直到第二阶段网络也收敛了,论文会将两个阶段放在一起微调,使用的是adam算法,学习率为10的-5次方。

你可能感兴趣的:(深度学习,计算机视觉,神经网络)