2019-2021 文本生成图片 Text To Image(T2I) Synthesis 论文整理

参考:文本生成图像!GAN生成对抗网络相关论文大汇总

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model,如下图所示。
  详细内容:https://www.cnblogs.com/zyyz1126/p/14474382.html 末尾

Adversarial Learning of Semantic Relevance in Text to Image Synthesis

以conditional GANs为基础,discriminator的auxiliary task。图片diversity高。基于负采样。

Controllable Text-to-Image Generation

ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码:https://github.com/mrlibw/ControlGAN。更多的可以看同一作者写的ManiGAN。
   详细内容:https://www.cnblogs.com/zyyz1126/p/14495753.html
   github

CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

content parsing。设计了一个memory structure来存储一个单词对应的图片。使用了一个conditional discriminator来判断文本图片局部的联系。
  详细内容:https://blog.csdn.net/qq_26136211/article/details/115067516
  github没有训练代码。

Cross-Modal Contrastive Learning for Text-to-Image Generation

通过contrastive learning最大化图片对的互信息。没有object-level的额外注释、单层模型。

Cycle Text-to-Image GAN with BERT

基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embedding为basic text featurizer。

Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

使用文本控制image-to-image特定部分的改变,比如“把头发的颜色变成红色”。

DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis

提出了一个只有一对discriminator和generator的简化模型,一个新的正则化方法减少计算成本,一个深入融合文本和图像的fusion block。

DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

现有的生成是先生成轮廓,在逐步细化。本论文针对当生成的轮廓效果不好时,引入一个dynamic memory module来修改生成的轮廓。
  详细内容:https://blog.csdn.net/qq_26136211/article/details/115048490
  github

Dual Adversarial Inference for Text-to-Image Synthesis

学习了文本中的两个部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(双重对抗性推理)。

【2021】Efficient Neural Architecture for Text-to-Image Synthesis

单层,单generator,单discriminator。引入deep residual networks 和entence interpolation strategy来学习一个平滑的条件空间。Image editing。

GILT Generating Images from Long Text

基于不直接描述图片的visual content长文本生成。食谱数据集。模型基于StackGAN-v2。
  代码:https://github.com/netanelyo/Recipe2ImageGAN.

Image-to-Image Translation with Text Guidance

文本控制image-to-image,数据集:COCO。

[2021]Learning efficient text-to-image synthesis via interstage cross-sample silmiarity distillation

考虑了每个stage的交互。 knowledge distillation知识蒸馏。

MirrorGAN: Learning Text-to-image Generation by Redescription

介绍了MirrorGAN:text-to-image-to-text framework,思想有点类似于CycleGAN,但是是监督学习。除了引进了Image Caption之外没有什么创新点。代码

Improving Training of Text-to-image Model Using Mode-seeking Function

通过使用特定的mode-seeking loss function 来规避图片生成过程中发生的mode collapse。

ManiGAN Text-Guided Image Manipulation

文本控制image-to-image生成。ManiGAN分为两个部分:ACM建立要修改部分的text到image的映射,并对不需要修改的部分进行编码,DCM完成修改。数据集:Caltech Birds (CUB) , Microsoft COCO。有代码。
  是controlGAN的改进。

PerceptionGAN Real-world Image Construction from Provided Text through Perceptual Understanding

在第一层添加了perceptual understanding来优化初始化图片。

Multimodal Semantic Transfer from Text to Image. Fine-Grained Image Classification by Distributional Semantics

不知道是什么论文,有点奇怪。待看。

Object-driven Text-to-Image Synthesis via Adversarial Training

Object-driven的注意力GAN,专注于以对象为中心的text-to-image生成。数据集COCO。代码

Text as Neural Operator Image Manipulation by Text Instruction

文本控制image-to-image生成。

SegAttnGAN Text to Image Generation with Segmentation Attention

使用Segmentation作为额外输入。

Semantic Object Accuracy for Generative Text-to-Image Synthesis

新的评估标准Semantic Object Accuracy (SOA)评断文本和图片的语义一致性,即根据文本的内容检测图片中是否包含相关物体。 代码

Semantics Disentangling for Text-to-Image Generation

消除语义混乱。数据集:Caltech Birds (CUB) , Microsoft COCO。

[2021]SAM-GAN: Self-Attention supporting Multi-stage Generative Adversarial Networks for text-to-image synthesis

SAM-GAN, Self-Attention supporting Multi-stage Generative Adversarial Networks,解决问题的出发点类似DM-GAN,都是针对initial image不好的情况。

Text-to-Image Generation with Attention Based Recurrent Neural Networks

attention-based encoder学习word到pixel,条件自回归decoder学习pixel到pixel和图像的生成。使用了Structural Similarity Index评估。数据集:COCO,MNIST-with-captions。

Text Guided Person Image Synthesis

文本控制人像的image-to-image生成。用VQA Perceptual Score评估。(效果看起来不是很好)

Text-Guided Neural Image Inpainting

文本控制图像修复。有代码。

TivGAN Text to Image to VIdeo Generation with Step by Step Evolutionary Generator

文本生成图片再生成视频。分两步训练,先根据文本生成高质量的单帧图片,再生成连续帧。
  详细内容:https://blog.csdn.net/qq_26136211/article/details/115049472

Text-to-Image Synthesis Based on Machine Generated Captions

先从图片生成文本,在用到text-to-image 的训练。数据集:LSUN-bedroom

Text-to-image synthesis method evaluation based on visual patterns

提出新的评估metrics,可以评估文本图像的语义一致性。

TIME Text and Image Mutual-Translation Adversarial Networks

图片文本互相转化。轻量级模型。使用了transformer。

Text-to-Image Generation Grounded by Fine-Grained User Attention

使用了一个全新的数据集,它详细描述了图片中每个物体的位置和信息,通过用户提供的图片详细描述和Mouse Trace来生成Segmentation,再通过Segmentation生成图片。效果还行。

Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language

text-guided Image Manipulation。效果挺好。

Text-Guided Neural Image Inpainting

text-guided 图像修复。代码

【2021】Adversarial Text-to-Image Synthesis A Review

2021新的一篇综述。

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

结合了StyleGAN和预训练的Image-Text模型CLIP,效果很好。 代码

你可能感兴趣的:(论文阅读,人工智能)