Automatic Trimap Generation for Image Matting

Automatic Trimap Generation for Image Matting翻译
Abstract
image matting 是计算摄影中的一个重要问题。虽然已经研究了二十多年,但是开发一种不需要人工干预的自动matting算法仍然是一个挑战。大多数最先进的matting算法都需要人工干预,以trimap或涂鸦的形式生成输入图像的alpha消光。在本文中,我们提出了一种简单而有效的方法,从输入图像中自动生成三元图,使整个消光过程不受人的干扰。采用基于学习的消光方法,利用自动生成的trimap生成消光效果。实验结果表明,该方法能得到较好的三原图质量,能得到较准确的消光效果。我们使用相同的图像匹配算法,用手动创建的trimap替换自动生成的trimap,从而验证我们的结果。

  • 1.Introduction
    image matting是对图像和视频中前景对象进行精确估计的过程。它在图像和视频编辑应用中是一项非常重要的技术,特别是在电影制作中用于创建视觉效果。在image matting处理过程中,某些像素既有来自前景的贡献,也有来自背景的贡献,这些像素称为部分像素或混合像素。
    给定图像I,图像消光问题的数学表达式如式1所示。
    在这里插入图片描述
    p = (x, y),αp代表了哑光,它可以取任何值在[0,1],和Fp和Bp分别为前景和背景的像素值。如果αp = 1或0像素位置p分别属于明确的前景或确定背景。否则,该像素称为局部像素或混合像素。为了将图像中的前景与背景完全分离,需要精确地估计部分或混合像素的alpha值。在Eq1,如果我们考虑一个全彩色图像(RGB),有7个未知数(Fp,Bp,每一个颜色通道和αp)和三个方程(每个颜色通道)。因此,图像消光是一个严重约束不足的问题。这种约束不足的问题可以通过添加更多的信息来解决。这些额外的信息以trimap[1]或涂鸦[2]的形式提供,即,标记属于确定前景或确定背景的一些像素。
    为了充分提取有意义的前景对象,几乎所有的image matting都依赖于用户的干预,其中用户将输入图像分割为三个区域:确定的前景、确定的背景和未知区域。这个三层图称为trimap。*理想情况下,trimap应该由前景边界周围非常小的未知区域组成,并且只包含部分或混合像素。未知区域越小(混合像素越少),估计的matte就越精确。*然而,生成这样一个精确的三元图需要大量的人力工作,而且通常是不可取的,特别是在透明对象的情况下。因此,*trimap的精度是影响matting算法性能的重要因素之一[]。*因此,为了缓解这些问题,需要用户指定的trimap或涂鸦来获得高精度的哑光。然而,通过自动生成更精确的trimap,我们可以减少用户手工创建trimap的工作量。
    在本文中,我们提出了一种从给定图像自动生成三元图的新方法。**我们使用图像的显著性映射来生成三元图。首先,我们使用SLIC超像素算法[3]对图像进行超分割。然后,利用面向纹理曲线(OTC)特征描述符对超分割图像[4]中的每个超像素点进行局部特征提取。然后对这些特征向量进行聚类,得到背景和前景的超像素。然后更新图像的显著性映射并对其进行阈值处理,得到二值映射。然后对这个二元图进行腐蚀和膨胀,以获得所需的三元图。**所述方法的步骤如图1所示。本文的主要贡献如下。
    1)提出了一种自动生成三图的图像消光框架,消除了人为干预。
    2)我们不是对每个像素进行处理,而是使用超像素对图像进行过度分割,将一组像素一起处理。
    3)利用图像的显著性和合适的局部特征描述符来识别前景和背景的超像素点,有助于trimap的自动生成。
    本文的其余部分组织如下。在第二部分,我们简要介绍了现有的最先进的消光算法。第三部分详细介绍了所提出的自动生成三元图的算法。在第四部分中,我们展示并讨论了用我们的方法生成的三元图得到的图像消光结果。第五部分对全文进行了总结,并提出了今后的改进思路。
    Automatic Trimap Generation for Image Matting_第1张图片
    2. RELATED WORK
    在本节中,我们将讨论一些最新的最先进的消光算法。一般将匹配算法分为基于采样的[5]、[1]、[2]方法和基于亲近关系的方法[6]、[7]、[8]、[9]、[10]。
    A:基于采样的方法
    这些方法的基本原理是利用相邻的前景和背景像素作为样本来估计未知像素的alpha值。Ruzon和Tomasi提出了一种基于采样的[5]消光方法。在这种方法中,alpha值沿着连接每个对象颜色分布边界的流形进行测量。将未知区域划分为子区域,并在这些子区域中定义一个局部窗口,使其覆盖未知区域,以及一个局部前景和背景区域。最优的alpha值负责一个中间分布,该分布对观察到的颜色值具有最大的概率。庄等人提出的贝叶斯方法也使用了概率方法来求解消光问题[1]。采用贝叶斯框架构造消光问题,采用最大后验(MAP)技术求解消光问题。
    前两种方法假设未知区域在前景边界附近有点窄,因此使用局部颜色模型。但是,如果三元图没有很好地定义,并且它只包含一些涂鸦,那么这个假设就失败了。在粗糙三次映射的情况下,采用全局采样方法来处理采样问题[2]。当trimap定义良好时,基于抽样的方法工作得很好。
    B 基于亲近关系的方法
    基于亲缘关系的方法利用局部图像统计量,通过定义相邻像素之间的各种亲缘关系来对图像的哑光梯度进行建模,而不是直接估计每个像素的alpha值。泊松matting利用用户提供的trimap提供的边界信息从图像中估计出matte梯度,然后通过求解泊松方程[6]重新构造matte。它是基于前景和背景的亮度变化是平滑的假设。Grady等人采用随机游走算法,基于亲和力[7]计算最终的alpha值。测地线matting方法测量用户提供的涂鸦到未知区域(涂鸦外部)像素的加权测地线距离,将其标记为前景或背景像素[8]。
    郑等人提出了一种类似于测地线matting的交互式matting算法,称为FuzzyMatte[9]。该方法计算了未知像素与已知前景和背景像素之间的模糊连通性。然后利用模糊连通度计算最终的alpha值。封闭形式的消光方法显式地从对前景和背景颜色[10]的局部平滑度假设推导出一个代价函数。该代价函数可由稀疏线性方程组求解,得到全局最优解。此方法中使用的关联没有任何全局参数。相反,它使用对平均值和方差的局部估计,这将导致性能的显著改进,如[10]中所示。
    C: OTHER APPROACHES
    鲁棒消光方法将颜色采样和亲和度结合在一个优化过程中,得到更精确、鲁棒的消光解[11]。它对未知像素的前景和背景颜色进行采样,并确定这些样本的置信度。利用高置信度样本对能量函数进行拟合,利用随机游走法使能量函数最小化。郑和Kambhamettu利用半监督学习方法解决了数字打光问题,得到了一种基于局部学习的打光方法和一种基于全局学习的打光方法[12]。我们使用这种图像匹配算法来评估自动生成的三元图的有效性。
    - 3 .AUTOMATIC TRIMAP GENERATION
    在本节中,我们将详细描述我们提出的从给定图像自动生成trimap的框架。我们假设在给定的场景中有一个突出的物体。整个框架分为三个部分:过分割和特征描述、背景和前景超像素的识别、三分图生成和消光。
    A;OVER-SEGMENTATION AND FEATURE DESCRIPTION
    考虑如图2(a)所示的输入图像I。我们使用[3]给出的算法将图像I分割成N个超像素。得到的过度分割图像如图2(b)所示。注意,每个超像素包含不同的纹理和颜色信息,因此我们计算每个超像素[4]中13×13大小的patch的OTC特征。我们使用类似于在[13]中提出的方法从一个超像素中提取一个patch。OTC描述符捕获沿多个方向的补丁的纹理。该描述符对光照变化、几何畸变和局部对比度差异具有很强的鲁棒性。它提供了八个不同方向的185维纹理特征。利用[14]、[15]、[16]三种不同的方法,得到了输入图像i∈{1,2,3}的显著性映射SMi。这些方法都使用不同的框架来获得显著性映射。在[14]中,江怀祖等人采用监督学习的方法,将区域对比、区域属性、区域背景描述等区域特征融合在一起,形成主显著性图。在[15]中,首先对图像进行分割,得到一组候选对象,然后利用固定算法对不同区域的显著性得分进行排序。在[16]中,Rui Zhao等利用全局上下文和局部上下文模型,利用卷积神经网络(CNN)获得多上下文显著性模型。然后将这三种方法得到的对于i∈{1,2,3}的显著性映射SMi合并得到一个单一的显著性映射(见图2©),如式2所示。

    Automatic Trimap Generation for Image Matting_第2张图片
    B: iDENTIFICATION of background and foreground superpixels
    我们利用显着映射SM将超像素分为显着超像素和不显着超像素。对于每个超像素,我们得到显著性图的中值强度。如果该中值大于阈值T1,则将该超像素划分为显著超像素。否则,将其划分为非显着超像素。首先,我们把突出的超像素作为前景超像素,把不突出的超像素作为背景超像素。可能会出现一些突出的超像素被误分类为背景,一些不突出的超像素被误分类为前景。为了解决这一问题,我们使用k-means聚类[17]将超像素的OTC特征初始分类为前台,聚类为五个不同的聚类。同样,我们使用k-均值聚类方法将超像素的OTC特征初始分类为背景,聚类为五个不同的聚类。
    对于每个超像素,我们首先将其划分为前景,然后计算该超像素与背景超像素簇中心之间的欧氏距离Dfb。如果计算的欧氏距离(Dfb)的最小值小于阈值T2,则该超像素被识别为背景超像素。对初始分类为背景的超像素重复相同的过程,以识别更多的前景超像素。我们对所有被识别为背景的超像素重复相同的过程,使用由前景超像素估计的集群中心。图2(d, e)显示了分离的前景和背景超像素点,在此基础上,我们修改了显著性映射SM,使只有前景区域才有显著值。最后,我们得到修改后的显著性图SM0,如图2(f)所示。
    C;Trimap generation and matting
    为了生成trimap ,我们需要一个二值化显著性图。利用Otsu的阈值方法[18]对改进后的显著性图SM’进行二值化,得到的二值化显著性图如图2(g)所示。然后对二值化显著性映射进行侵蚀和膨胀,得到如图2(h, i)所示的侵蚀映射SMe和膨胀映射SMd,我们分别使用半径为5和半径为10的两个圆盘结构元素进行侵蚀和膨胀操作。从膨胀后的SMd中减去侵蚀后的SMe,得到如式3所示的trimap的未知区域。SMdiff = SMd - SMe。(3)得到的差分图与常数C相乘,其中0 < C < 1(图2(j))。然后将该差分图添加到侵蚀显著性图SMe中,得到如图2(k)所示的trimap ™。这个过程如式4所示。TM = C×SMdiff + SMe。(4)利用[12]中提出的基于学习的matting技术,利用我们提出的框架中得到的trimap,得到输入图像I的alpha matte。如图2(l)所示。
  1. RESULTS AND DISCUSSION
    在本节中,我们提出并讨论了该框架所获得的结果。我们对从FT[19]和PASCALS[15]数据集中获得的大量图像进行了测试。我们将由建议的框架生成的trimap与手动创建的trimap进行比较。该方法在背景部分自然的情况下工作良好,如图3所示。第一列显示输入图像,第二列描述手动创建的三元图,第三列显示由建议的方法生成的三元图。这两个三元图对应的matte分别显示在第四列和第五列。
    图3的第一行显示了由前景对象(空心框)和自然背景组成的图像的结果。在这里,我们观察到自动生成的trimap与手动创建的trimap非常相似,因此可以得到准确的哑光估计。对于第三、第四和第五行显示的图像也可以进行类似的观察。对于第二行所示的图像,自动生成的trimap与手动创建的trimap几乎没有区别。在自动生成的trimap中,前景的某些部分被标记为未知,而在手动创建的trimap中被标记为确定的前景。然而,matting算法可以处理这个问题,我们从这两个三元图中得到了近似相似的matte。在第5行,我们可以注意到,与手工创建的trimap相比,使用该方法获得的trimap非常准确地标记了未知区域(前景边界)。
    Automatic Trimap Generation for Image Matting_第3张图片
    图3所示的结果表明,自动生成的trimap与手动创建的生成matte的trimap一样精确。为了验证我们的声明,我们计算了使用两种不同的三次映射生成的哑光的差平方和(SSD)。,使用建议的方法和手动创建的trimap。第一至第七行图像的SSD分别为106、92、23、38和58。我们观察到SSD值非常小。该方法具有一定的局限性,可以在综合生成背景的情况下观察到。如果前景和背景颜色之间存在模糊,那么所提出的方法可能会导致trimap中的一些错误。我们使用Intel i5-4460s 2.9 GHz处理器和12gb RAM在PC上实现了这个框架。为了将图像分割成超像素,我们将N的值设置在250到400之间。阈值T1设置为显著性图中最大值的30%。阈值T2设为超像素OTC特征向量属于前景(或背景)与背景(或前景)超像素聚类中心之间距离的主题词。常数C选为0。65。该方法通常需要10秒的时间为任何给定的图像生成trimap,从而自动化整个图像消光管道。
  2. Conclusion
    iMAGE MATTING是图像和视频编辑应用中从背景中准确估计前景目标的一个重要过程。这个任务是不适定的,因此对计算摄影提出了一个重大的挑战。几乎所有的matting算法都需要用户以trimap或涂鸦的形式进行干预,作为这些算法的输入。这些算法的性能取决于这些用户输入。此外,手动创建trimap也要花费大量时间。为了解决这一问题,使整个消光过程自动化,我们提出了一个简单有效的框架,自动生成给定输入图像的三元图。实验结果表明,自动生成的三位一体图与人工生成的三位一体图非常接近,可以得到精确的消光效果。可能会出现没有明显突出物体的图像。在这种情况下,自动生成trimap是将来要解决的一个挑战。未来的另一个挑战是自动从给定的图像中提取与多个前景对象对应的哑光。

你可能感兴趣的:(论文翻译)