this paper proposed the Text2Scene model, instead of using the GAN, the researcher used tacombinationofanencoder-decodermodelwith a semi-parametric retrieval-based approach(基于半参数检索的编码器与解码器结合的方法)
从文本合成图像还需要一定程度的语言和视觉理解,这可以通过自然语言查询,文本表示学习以及自动计算机图形和图像编辑应用程序导致图像检索中的应用。
Text2Scene, a model to interpret important semantics in visually descriptive language in order to generate compositional scene representations.
Text2Scene模型,是将描述性的语言中重要的语义可视化地生成合成场景表示,尤其注重于生成包含一系列物体,以及他们的属性(位置,尺寸,纵横比,姿势,外表特征)的场景表示
本文改编并训练模型生成了三种类型的场景表示
Cartoon-like scenes from the Abstract Scenes dataset [41] where the objects include locations, sizes, aspect ratios, orientations, and poses (2) Object layouts for scenes in the COCO dataset [22] where the objects include locations, sizes, and aspect ratios, and (3) Synthetic image composites for scenes in the COCO dataset [22] where the objects include locations, sizes, aspect ratios, and pixel-appearance.
Our method, unlike recent approaches,doesnotrelyonGenerativeAdversarialNetworks (GANs). Instead, we produce an interpretable model that iteratively generates the scene by predicting and adding a new object in each step. 迭代生成,一步预测并加入一个新的对象
本模型的优点:该模型比在抽象场景【41】中提到的最好的结果还要好,提供了在目前火热的coco上的自动评估性能,比人类的评估性能更好。
Our method is superior to the best result reported in Abstract Scenes [41], and provides near state-of-the-art performance on COCO [22] under automatic evaluation metrics, and superior performance than the state-of-the-art when evaluated by humans.
Text2Scene概述:总体框架包括:
一个文本编码器,为输入提供一系列的表征,
一个图像编码器,为目前状态的生成场景编码
一个卷积循环模块,用于追踪空间位置,目前已经生成的历史
两个注意力模块,连续不断地集中于输入文本的不同部分,首先决定放什么对象,然后决定给该对象分配什么属性,
一个可选的前向嵌入步骤,其用来学习合成图像生成任务中批量检索外表特征
为场景生成复杂的文本表征的挑战性在于:
输入文本描述仅仅间接暗示属性的存在(“mike is surprised ”该输入文本应当改变生成对象mike的面部属性)。
复杂的空间配置
text to scene 建模:
使用一个seq2seq的方法,对象被连续放置在一个初始为空画布上
Text2Scene框架:
consists of a text encoder that maps input sentences to a set of embedding representations, an object decoder that predicts the next object conditioned on the current scene state, and an attribute decoder that determines the attributes of the predicted object.
Text2Scene模型的研究结果:
本文主要的研究工作:
该模型没有使用抗性训练,而是使用半参数检索模块生成像素层次的输出,同时, 端到端地学习预测语义和物体布局。
Text2Scene被端到端地训练,并且不仅仅生成类似卡通的场景,在同一个统一的框架下,还生成了抽象场景,语义布局,组合图片。
模型
4.Experiments
Task(I):Clip-art Generation on Abstract Scenes
Task (II): Semantic Layout Generation on COCO
对于抽象场景生成任务:
灵感来自应用于机器学习的性能评估。但是和机器翻译不同的是,这篇文章旨在对齐多模态视觉语言数据。
计算指标:单个物体的精度/召回率;双物体;姿势,表情分类准确率;欧氏距离。
对于布局生成实验:
给复杂的真实世界物体布局来定义评估指标是很难的,[13] S. Hong, D. Yang, J. Choi, and H. Lee. Inferring semantic layout for hierarchical text-to-image synthesis. In Computer Vision and Pattern Recognition (CVPR), 2018. 1, 2, 3, 6 ,受这篇文章的激发,本文使用字幕生成作为外在评估,从语义布局生成字幕,用它们和原始的生成该场景的字幕进行比较(巧妙)。我们使用常用的字幕指标来衡量,例如:BLEU,METEOR,ROUGE_L,CIDEr和SPICE.
注解:
对于合成图像生成:
本文采用Inception Score(IS)指标,该指标经常被用于最近的文本到图像生成模型,但是,IS指标并不评估图像和字幕之间的语义匹配度
也采用字幕生成指标作为一个外部的评估。【13】中使用show-and-tell字幕生成器从合成图片中来生成句子。
提出的模型的变式:
For Further Analyse:
捕获文本描述和生成的抽象场景之间的语义对齐
AMT(Amazon Mechanical turker)注解:
深度学习和人工智能的不断崛起,让科学界看到了一切事物智能化的可能性。但是目前完成机器的智能化训练,仍然需依靠数量庞大的数据。谷歌开源的Google Open ImageDatasets,Youtube-8M中的标记视频……这些按规则分类的数据集是无法单纯由设备完成的,只有人的智慧,才可以区分每一个细微的差别,每一个波动的偏差。
那么这些海量的数据由谁来标定?
亚马逊劳务众包平台“Amazon MechanicalTurk”,正是解决这个问题的存在
亚马逊劳务众包平台(AMT)源于2005年,搭建的初衷仅仅是为了解决内需——管理库存,将图片和产品分类,翻译文本,将语音或者图片转录成文本,检查拼写错误,验证地理位置,对产品进行评论,让公司能够追踪查看的属于广告的哪一部分……随着时间的推进,平台不断发展,渐渐对外开放。时至今日,AMT注册用户量累计过50万,并将这种众包式的数据标定工作发展成为一个崭新的行业。这些注册用户虽然来自全球各地,但75%都属于美国;他们将自己称作Turker,日复一日重复着相同的事情——无需走出家门,但却可以养活整个家庭。
捕获文本描述和生成的抽象场景之间的语义对齐
我们将[4]的谓词语义框架分析应用于使用[42]计算的语义解析方法从输入句子获得的相应三元组。
对于抽象场景:(abstract scene)
text2scene是可以捕获到语义之间的细微差别的,例如两个对象之间的空间关系。
对于布局生成任务:(Layout generation task)
布局生成任务中的外部评估,表明了从合成图像性能生成的字母和真实的布局几乎接近。
由图6 也可以看出:改模型学会了重要的视觉概念,就像物体的存在与否和数目以及空间关系。
对于组合图像的合成图:(synthetic image composites)
对于复杂组合图像的生成。
模型不是通过从单一训练图像中简单的检索来生成合成图像,每一个合成结果图中包含8.15个补丁,这些补丁源自7.38个不同资源的图像,并且结果图表明模型不仅仅学习一个全局图像检索。
未来工作:
模型可以被包含有更强健的后处理方法,或者结合基于GAN的模型提升