【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第1张图片

论文地址:https://arxiv.org/abs/2208.12242v1
项目地址:https://dreambooth.github.io/

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第2张图片
DreamBooth 主要的工作目的是实现保留主体的细致特征的情况下使用文本对其进行环境等编辑。整体方法为给定一个主体的3-5个图像和文本提示作为输入,微调预训练的文生图模型(Imagen,但不限于特定模型)用于合成主体在不同场景中的全新照片级图像。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第3张图片

该框架分两步操作(见上图);

1)从文本生成低分辨率图像(64×64)

利用3-5张输入图像文本提示微调低分辨率文生图模型,并且为了防止过度拟合和语言漂移提出了自发性的**类别区分的先验保留损失(Class-specific Prior Preservation Loss)**来鼓励生成与主体相同的类的不同实例。

对于文本提示,本文使用“a [identifier] [class noun]”的形式,其中[identifier]是与主体关联的唯一标识符,[class noun]表示主体类别,如cat、dog等。对于[identifier]作者尝试使用描述性词汇,如“蓝色的”、“特别的”等,以及随机字符数字组合,如“xxy5sy00”,但是都会混杂有语言模型对这些词汇或字母的先验知识。最终,作者的方法是在词汇表中找到相对罕见的tokens,然后将这些tokens利用de-tokenizer反转到文本空间中成为唯一标识符的候选。

作者使用T5-XXL语言模型生成文本提示P的条件嵌入c。首先使用SentencePiece标记器f使用学习的词汇表将文本tokenize,获得固定长度的向量f§,语言模型以f§为条件,以产生嵌入c=Γ(f§)。最后,文生图扩散模型直接以c为条件。

语言漂移是语言模型常在fine-tuning时遇到的问题,即在较少样本上fine-tuning时,导致某个词汇失去其原有的语义。类别区分的先验保留损失即利用原本预训练的模型根据无identifier的文本提示生成的图像作为Ground Truth训练来保留其原本预训练模型对于类别的先验知识。下面两幅图可以看到该损失对于防止过度拟合(上图)和语言漂移(下图)的效果。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第4张图片

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第5张图片

2)应用超分辨率(SR)扩散模型(1024×1024)
没有微调的超分网络,由于对主体实例的纹理细节不熟悉或缺少信息,会导致生成伪影。作者发现将64×64->256×256的超分网络fine-tuneng对于大部分主体是必不可少的,而256×256->1024×1024的超分网络的fine-tuneng对于有一些极细细节的例子是有用的。同时作者发现噪声增强的水平太高会导致主体和环境的高频图案的模糊。因此在微调256×256 SR模型期间作者将噪声增强水平从10-3降低到10-5。下图可以看出噪声强度和fintunig的效果。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_第6张图片

你可能感兴趣的:(文生图扩散模型,图像处理,计算机视觉)