Learning Hierarchical Semantic Image Manipulation through Structured Representations

题目

Learning Hierarchical Semantic Image Manipulation through Structured Representations
通过结构化表示学习分层语义图像处理

摘要

几十年来,理解,推理和操纵图像的语义概念一直是一个基本的研究问题。以前的工作主要集中在通过颜色描边,关键点,纹理和填充孔来对自然图像流形进行直接操作。在这项工作中,我们提出了一种新的语义图像处理分层框架。我们的分层框架的关键是我们采用结构化语义布局作为操作的中间表示。使用粗级边界框初始化,我们的结构生成器首先创建像素方式的语义布局,捕获对象形状,对象 - 对象交互和对象 - 场景关系。然后我们的图像生成器填充由语义布局引导的像素级纹理。这样的框架允许用户通过一次添加,移除和移动一个边界框来在对象级操纵图像。实验评估证明了分层操作框架相对于现有图像生成和上下文填充模型的优势,无论是定性还是定量。在诸如语义对象操作,交互式图像编辑和数据驱动的图像操作之类的应用中进一步证明了分层框架的益处。

1 简介

几十年来,对图像的感知、推理和操作一直是计算机视觉、机器学习和图形学中的核心研究问题之一[1,7,8,9]。近来,在利用深度神经网络的交互式图像编辑中积极地研究了该问题,其中目标是根据各种类型的用户控制来操作图像,例如颜色笔划[20,32]、关键点[19,32]、纹理[26]和填充孔(画中)[17]。虽然这些交互式图像编辑方法在合成高质量的操作结果方面取得了很好的进展,但是它们仅限于对自然图像流形的直接操作。

本文的主要目的是实现图像的语义级操纵。我们将语义标签映射作为自然图像流形上的操作接口,来代替自然图像流形上的图像操作。通过编辑标签映射,用户可以在语义级别指定所需的图像,例如位置、对象类和对象形状。近年来,基于图像到图像转换的方法[3,11,24]在语义图像操纵方面已经显示出良好的结果。然而,现有的工作主要集中于学习从标签映射到像素的样式转换函数,而标签结构的操作仍然完全由用户负责。对像素级标签的直接控制的要求使得操作任务仍然具有挑战性,因为它需要精确且大量的用户输入来指定对象和场景的结构。尽管可以通过基于模板的操作接口(例如,从预定义的模板掩码集合[24]中添加对象)部分地解决这个问题,但是对象掩码的盲粘贴是有问题的,因为对象的结构应该根据周围的环境语境自适应地确定。

在这项工作中,我们处理语义图像操作的任务作为一个分层的生成过程。我们从场景的粗略抽象开始我们的图像操纵任务:一组语义边界框,它在对象层中提供场景的语义(what)和空间(where)信息。这种表示是自然的和灵活的,使用户能够通过添加、移除和移动每个边界框来操纵场景布局。为了便于从粗层次语义边界框进行图像操作,我们引入了一个分层生成模型,该模型在多个抽象层次上对图像进行预测。我们的模型由两部分组成:布局和图像生成器。具体地说,我们的结构生成器首先从粗对象边界框中推断出细粒度语义标签映射,从而生成与上下文对齐的操作对象的结构(形状)。给定所预测的布局,我们的图像生成器会考虑与环境的感知一致性来推断对象的样式(颜色和纹理)。这样,当添加、移除和运动语义边界框时,我们的模型可以生成适当的图像,无缝地集成到周围图像中。

我们提出了两种应用的交互式和数据驱动的图像编辑的方法。在交互式图像编辑实验中,我们展示了我们的方法允许用户使用对象边界框来轻松地操作图像,而生成的对象的结构和样式是根据上下文自适应地确定的,并且自然地融入到场景中。此外,我们还表明,通过自动采样对象框并生成新图像,我们的简单对象级操作接口可以自然地扩展到数据驱动的图像操作。

分级图像处理的好处有三个方面。首先,它支持更丰富的操作任务,如通过对象级控制添加、移动或删除对象,同时通过模型推断细粒度对象结构。第二,当以粗粒度和细粒度语义表示为条件时,与没有结构控制的模型相比,所提出的模型产生更好的图像操作结果。最后,我们验证了所提出的交互式自动图像处理方法的有效性。

2 相关工作

深度视觉处理。

结构条件图像生成

3 分层图像处理

给定输入图像,我们的目标是通过操纵其底层语义结构来合成新图像。设中表示定义在C类上的图像的语义标签映射,该语义标签映射要么被给出真值(在训练时),要么被预先训练的视觉识别模型(在测试时)推断。然后,我们的目标是通过操作来合成新图像,这允许对图像进行语义引导的操作。

本文的核心思想是引入对象边界框B作为抽象接口来操作语义标签映射。特别地,我们定义可控边界框B={b,c}作为框角和类标签c={0,.…C},它表示对象的位置、大小和类别。通过添加新框或修改现有框的参数,用户可以通过添加、移动或删除对象来操作图像。给定B给出的对象级别规格,然后将图像操作设置为从粗边界框到结构和样式的像素级别预测的分层生成任务。

Overall pipeline of framework.png

图1示出了所提出的算法的总体流水线。当给出新的边界框B时,我们的算法首先通过裁剪以B为中心的大小的方形窗口来提取标记映射和图像的局部观测值,然后以M、I和B为条件,我们的模型通过以下步骤生成被操纵的图像程序:

  • 给定边界框B和语义标签映射M,结构生成器通过预测被操纵的语义标签映射(3.1节)。
  • 给定操纵的标签映射和图像,图像生成器通过预测机动图像(3.2节)

3.1 结构生成器

结构生成器的目的是以像素级标记的形式来推断由B={b,c}指定的区域的潜在结构。结构生成器的输出应该反映由B定义的对象的特定类的结构,以及生成的对象与周围上下文(例如,骑摩托车的人)的交互。为了在生成过程中考虑这两个条件,结构生成器将标签映射M和边界框B合并为输入,并且执行的条件生成。

Architecture of the structure generator.png

图2说明了结构生成器的总体结构。结构生成器采用掩模版图和二进制掩模,其中对于c类框的所有像素(i,j)有, 。

我们的设计原则是由生成性分层图像建模[19,23,27,28,29]驱动的,该模型使用单独的输出流分别生成前景(即对象)和背景(即上下文)。在我们的模型中,前景输出流对二值对象掩模产生预测,它定义了被对象框B严格限制的对象形状。背景输出流在B内产生每个像素的标签映射。

Loss省略

图像生成器

给定由结构生成器获得的图像和操纵的布局,图像生成器输出由B定义的区域内的内容的像素级预测。为了使预测在语义上有意义且在感知上可信,图像生成器的输出应该反映由布局定义的语义结构,同时在其样式(例如颜色和纹理)上与周围图像一致。我们设计条件图像生成器,使得,其中表示关于边界框B的操作之前和之后的局部图像。

你可能感兴趣的:(Learning Hierarchical Semantic Image Manipulation through Structured Representations)