来源 | 旷视研究院
两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 日在韩国首尔举办。旷视研究院共有 11 篇接收论文,涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别、AutoML、度量学习、强化学习、元学习等众多领域。在此之前,旷视研究院将每周介绍一篇 ICCV 2019 接收论文,助力计算机视觉技术的交流与落地。
本文是第 6 篇,由于发现了抠图可分为 trimap adaptation 和 alpha estimation 两个任务,并受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (Adaptation and Matting) ,同时克服了诸多局限性。该方法在最为通用的数据集 Adobe Composition-1k 上刷新了当前最优成绩,并在 alphamatting.com 上取得第一。
论文名称:
Disentangled Image Matting
论文地址:
https://arxiv.org/abs/1909.04686
目录
导语
简介
方法
Trimap Adaptation
Network Overview
Multi-task Loss
实验
Results on alphamatting.com
Results on Composition-1k
讨论
Accuracy of Trimap Adaptation
Real World Image Matting
结论
附录
More Qualitative Results
参考文献
往期解读
导语
抠图旨在精确地评估图像和视频中前景物体的不透明度。它是一系列应用的预处理,比如电影制片和数字图像编辑。
一般来讲,输入图像 I 被建模为前景和背景色彩的线性结合,如下所示:
其中,F_i、B_i、α_i 分别是指像素 i 前景色彩和背景色彩以及前景蒙版(alpha matte)估值。给定一张图像 I,抠图旨在同时解决 F、B、α。
由等式 1 可知,这一问题是高度不适定的(highly ill-posed)。对于一张 RGB 图像,每个像素需要 7 个变量来共同界定,却只有 3 个已知变量。
对于大多数现有的抠图算法,约束解空间的基本输入是三元图(trimap),一个指示不透明度和未知区域的粗糙的分割图。
三元图由使用者涂鸦交互生成,或者由二值图像分割结果自动生成。无论何种方式,输入的三元图通常是粗糙的,即未知区域(图 1b 中的灰色区域)包含真实的半透明像素以及大量的不透明像素。这是因为通过人工标注来提供精确的三元图极其繁琐,并且难以使用运行在低分辨率图像的图像分割方法来实现。
图 1:(a) 输入图像, (b) 输入三元图,(c) 本文抠图结果, (d) trimap adaptation 相应结果
不幸的是,先前的抠图方法经常忽视输入三元图的不精确性,并尝试直接估值一个好的前景蒙版。
旷视研究院认为,在这一过程中,一个分类问题没有得到充分解决。如果仔细观看三元图,未知区域的像素将会分入三个集合:不透明前景,不透明背景以及半透明区域。前两类称之为不透明像素,后一类称之为混合像素。
抠图方法的期望行为是为不透明像素生产精确的 0 和 1,同时精确评估混合像素的微小不透明度(介于 0 和 1 之间)。
由此可见,抠图这一任务包含两个相关但又不同的任务。第一个是分类未知区域中的像素以确认混合像素,本文称之为 trimap adaptation,第二个是精确计算混合像素的不透明值,本文称之为 alpha estimation。
研究员观察到,这两项任务需要相当不同的算法能力。第一种更多地依赖对物体形状和结构的很好的语义理解,从而可基于图像特征有效识别未知区域的前景和背景区域。
对于第二种任务,合理的利用低语义的图像线索更为关键。其中 trimap adaptation 可被建模为一个分类任务,而 alpha estimation 可被看作一个典型的回归任务。
大多数现有抠图方法把抠图当作单一的回归任务,它们忽略了抠图中的分类属性。这一观察带来的问题是,如何在一个解决方案中协调抠图问题的两个不同方面。
现有抠图方法,尤其是基于优化的方法,太过依赖于低阶的特征,比如色彩分布和局部纹理,并且缺乏整合高阶特征的能力。
正如最近一些工作所示,更好地理解物体的结构和形状有利于图像抠图。尽管宣称使用高阶特征,这些方法通常只利用预训练特征,并且不使用显式的语义目标作指导。
简介
正是由于发现抠图可分为 trimap adaptation 和 alpha estimation 两个任务,并受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (Adaptation and Matting) ,同时克服了上述的局限性。
AdaMatting 借助多任务的方式在两个不同的解码器分支内执行这两个任务。通过显式监督模型以区分混合像素和不透明像素,接着使用优化的三元图约束 alpha estimation 的输出,这个两个分支分别处理这一任务的不同方面。
此外,通过共享两个任务的特征,大大提升了对模型的物体形状和结构信息的理解,如图 2 所示。
图 2:AdaMatting pipeline
本文主要贡献如下:
提出一种新观点,即抠图应区分为 trimap adaptation 和 alpha estimation 两个任务,并证明这一区分对于提升基于 CNN 的抠图方法至关重要。
提出一个全新的框架,其中这两种任务可以多任务的方式进行联合优化。大量实验表明,这一方法可以更好地利用语义信息为已训练的 CNN 模型提供额外的结构感知力和三元图容错能力。
该方法在最为通用的数据集 Adobe Composition-1k 上刷新了当前最优成绩,并在 alphamat-ting.com 上取得第一。
方法
本节首先准确界定 trimap adaptation 这一任务,接着描述 AdaMatting 的 pipeline 和训练方案。
Trimap Adaptation
令 α_gt 作为前景蒙版 ground truth ,那么,一张图像相应的最优三元图 T_opt 可写为:
给定一张已做三元图处理的输入图像, trimap adaptation 的目的是预测最优的三元图 T_opt,直观来讲, 即是把半透明的区域与不透明的前景和背景分开。
根据 T_opt 的定义,抠图自然地分为两步:1)确定 α 是否正好为 0、1 或者两者都不是;2)如果区域是半透明的,精确计算 α。
注意,本文不需要预测标签与输入三元图良好兼容:如果用户输入存在镜像错误,研究员希望模型可以修正它。
图 1d 给出了由本文模型给出的 trimap adaptation 实例。由图可知,第一个输入三元图中的未知区域宽泛且有错误,由于低质量标注而没有覆盖所有的头发。
执行 trimap adaptation 之后,输出三元图不仅缩小而且被纠正,从而产生了更可靠的前景蒙版。
对于第二张输入图像,自动化三元图生产算法没能给出一个有意义的三元图。但是,在这种极端情况下,AdaMatting 令人吃惊地改写了一个相对精确的三元图,并且完美解决了抠图的这一困难问题。
Network Overview
本文设计了一个完全端到端的 CNN 模型,称之为 AdaMatting,图 2 给出了其 pipeline。它包含一个产生共享表征的编码器,以及两个相互独立的解码器,以分别处理 trimap adaptation 和 alpha estimation 两个任务。trimap adaptation 和中间前景蒙版的结果接着输入到 propagation unit,形成最终的前景蒙版。
AdaMatting 把与相应三元图相连的图像作为输入。首先,一个前端全卷积编码器产生深度特征以作为共享的特征。接着,两个独立的解码器用于每个任务,旨在学习从共表征到期望输出的映射。
每个解码器包含若干个 3x3 卷积层以及上采样模块。三元图解码器输出 3 个通道的分类 logits,由交叉熵损失来引导;α 解码器输出 1 个通道的中间值 α 估计,进入 propagation unit 以做进一步优化。
Multi-task Loss
如上所述,在 AdaMatting 中,trimap adaptation 可被建模为一个分割任务,把输入图像分为前景、背景和半透明区域。解决这类分割问题的过程可带来丰富的语义特征,反过来这有助于解决前景蒙版回归的问题。
本文采用了不确定性损失,而不是线性结合的损失函数。这一损失可写为:
实验
本文开展了大量实验,证明 AdaMatting 在两个公开数据集上的有效性:1) al-phamatting.com,2) Adobe Composition-1k test set,且后者的物体种类更多,背景区域更为复杂。本节将会把 AdaMatting 与当前最优方法从定量和定性两个方面做对比。
Results on alphamatting.com
本文把结果提交至 alphamatting.com,取得了当前最佳的表现,在所有三项指标的平均性能上位列第一。梯度误差和 MSE 结果如表 1 所示。
表 1:alphamatting.com 数据集上本文方法与其他 5 个当前最优方法的平均排名结果
视觉对比效果如图 4 所示。
图 4:alphamatting.com test set 两张图像的定性对比结果
Results on Composition-1k
在 Composition-1k test set 上,本文对 6 个最新的抠图方法做了评估,它们是 Closed Form、KNN、DCNN、Information Flow、AlphaGAN 和 Deep Image Matting。Grad、SAD 和 MSE 下的量化结果如表 2 所示。很明显,AdaMatting 在所有指标上大幅超越其他所有方法。
表 2:Composition-1k test set 上的定量对比结果
另外,数据集中给出了一些非常困难的图像,其中前景颜色和背景很难区分。两个实例如图 5 所示。
图 5:Adobe Composition-1k test set 上的定性对比结果
很明显可以看到,相较于所有其他方法,本文结果包含更为生动的细节,伪影也大幅减少。
讨论
Accuracy of Trimap Adapatation
本文还对 trimap adaptation 任务对抠图任务的影响进行了鲁棒性分析。
表 3:在Adobe 测试集上三元图自适应的准确率(Acc,IOU)以及Gradient Error
Real World Image Matting
图 6:真实世界里图像的抠图结果。输入的三元图由对人像二元分割掩码进行膨胀后得到
结论
本文从一种解构的视角来分析抠图方法,即该任务可被分为两个子任务:trimap adaptation 和 alpha estimation。
从这一视角出发,本文提出一种新型抠图方法,称之为 AdaMatting,以借助多任务损失联合解决这两项子任务。
通过现实分离两个子任务,并根据不同目标优化它们,模型可从包含丰富语义和音素信息的共享表征中受益巨大。
大量实验证实了 AdaMatting 具有额外的结构感知能力和三元图容错能力。此外,从定量与定性的实验结果来看, AdaMatting 还在两个广泛使用的数据集上展现了优异性能,成为抠图方向上新的当前最佳。
附录
More Qualitative Results
在 Composition-1k 上的更多结果,如下:
图 7:Adobe Composition-1k test set 上的定性对比结果
在 Real Image 上的更多结果,如下:
图 8:真实世界里的背景替换效果对比
参考文献
◆
精彩推荐
◆
2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。
即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!