Automatic Portrait Segmentation for Image Stylization 翻译学习——转

https://blog.csdn.net/QiangLi_strong/article/details/81022992
论文翻译
2.3. Image Matting
图像抠像是图像选择的另一个重要技术。 对于自然图像抠图,可以在[WC07]中找到详细的调查。 在这里我们回顾一些与我们的技术相关的热门作品。扣图问题是病态的并且受约束的。 这些方法通常需要初始的用户定义的前景和背景注释,或者是对前景,背景和未知遮罩值进行编码的trimap。 根据不同的公式,通过Bayesian matting [CCSS01],Poisson matting [SJTS04],Closed-matting [LLW08],KNN matting [CLT13]等方法可以估计遮罩的未知像素。为了评估不同的方法,Rhemann等。 [RRW * 09]提出了一个定量的在线基准。 就我们的目的而言,这些方法的缺点是它们依赖于用户来指定trimap。

3.1
损失层 在训练期间使用该层来测量网络输出与真实值之间的误差(公式1)。 对于分割标签任务,损失层由softmax函数计算。

用于这项工作的完全卷积网络(FCN)最初是针对二十类对象分割的Pascal VOC数据集上的语义对象分割进行训练的。 尽管数据集包含了一个人类,但是仍然会对我们的肖像图像数据集的分割精度不好,如图4(b)所示。 其原因主要是:1)Pascal VOC分辨率低,限制了我们高分辨率人像图像数据集推理的有效性。 2)原始模型输出多个标签来指示不同的对象类别,这在我们的任务中引入了模糊性,其仅需要两个标签。 我们通过标记新的纵向分割数据集来解决这两个问题,以便微调模型并将标签输出更改为只有背景和前景。 我们展示了这种方法的结果,并在论文中将其称为PortraitFCN。—PortraitFCN仅仅是因为更改了新的分割数据集
虽然PortraitFCN如图4(c)所示提高了我们的任务的准确性,但是在服装和背景区域仍然存在问题。 其中一个重要原因就是CNN固有的平移不变性。 随后的卷积和池化层逐步交换空间信息以获取语义信息。 虽然这对分类这样的任务来说是可取的,但这意味着我们失去了允许网络学习的信息,例如,4(c)中上方和脸部右侧看上去应是背景。

3.3. Our Approach
我们的方法将用CNNs学习到的特定肖像的知识注入到了模型中。 为了做到这一点,我们利用鲁棒的面部特征检测器[SLC09]来生成辅助的位置通道和形状通道。 然后将这些通道作为输入,并与肖像的颜色信息一同包含到网络的第一个卷积层。(译者注:如图3下方所示的网络结构第一层,由5个Channels组成,分别是R、G、B、Mean Mask、Normalized x and y,后两个分别为位置通道和形状通道。
位置通道 这些通道的目的是编码相对于脸部的像素位置。 输入图像的像素位置只给出了关于肖像的有限信息,因为目标在不同的图像中具有不同的外框。 这鼓励我们为网络提供两个额外的通道, normalized x and y 通道,其中 x 和 y 是像素坐标。 我们通过首先检测面部特征点[SLC09]并估计拟合特征和典型姿态之间的单应变换 τ 来定义它们,如图3(d)所示。 我们将归一化的 x 通道定义为 τ(ximg) ,其中 ximg 是图像中脸部中心为零的像素的x坐标。 我们同样类似地定义标准化的 y 通道。 直观地说,该过程表示在以脸部为中心的坐标系中各个像素的位置,并根据面部尺寸进行了缩放。

形状通道 除了位置通道,我们发现添加一个形状通道进一步改善了分割。 典型的肖像包括主体的头部和肩膀、手臂以及上半身。 通过包含一个形状区域目标与真实肖像目标对齐的通道,我们明确地向网络提供一个特征,该特征应该是最终结果的合理初始估计。 为了生成这个通道,我们首先从我们的训练数据集中计算一个对齐的均值掩膜。 对于每个进行训练的肖像-掩膜对{Pi,Mi},我们使用单应性Ti来变换Mi,该Ti是从Pi的面部特征点和典型姿态的估计得到的。 我们计算这些变换后的掩膜的平均值为:

  1. Results and Applications

我们的方法在自动肖像分割任务方面取得了显着的性能提升。 我们提供了其他方法的详细比较。 由于高性能的分割精度,还进行了大量的应用。
用本文方法得到的分割结果+knn matting ,效果提升。

你可能感兴趣的:(论文翻译)