[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

使用引导扩散模型编辑真实图像的空文本反转

code links: https://null- textinversion.github.io/.

Abstract

在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。

我们提出的反演包含两个新的关键组成部分:

  • (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。
  • (ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。

取得的效果: 在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。

Introduction

在本文中,我们引入了一种有效的反演方案,实现了近乎完美的重构,同时保留了原始模型丰富的文本引导编辑能力(见图1)。我们的方法建立在对导扩散模型的两个关键方面的分析之上:无分类器制导和DDIM反演。

据我们所知,我们的方法是第一个在真实图像上启用Prompt-to-Prompt[16]文本编辑技术的方法。此外,与最近的方法不同[19,39],我们不调整模型权重,从而避免破坏训练模型的先验,并为每张图像复制整个模型。通过全面的消融研究和比较,我们展示了我们的关键组件对实现给定真实图像的高保真重建的贡献,同时允许有意义和直观的编辑能力。

Method

framework

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第1张图片

  • 第一行:关键反转。我们首先对输入图像应用初始DDIM反演,估计扩散轨迹。 从最后一个潜在的z * T开始扩散过程会导致不满意的重建,因为潜在代码离原始轨迹越来越远。
  • 我们使用初始轨迹作为优化的枢轴,使扩散反向轨迹{* zt}T1更接近编码z * 0的原始图像。
  • 第二行:时间戳t的空文本优化。无分类器引导包括执行两次预测θ—使用文本条件嵌入和无条件使用空文本嵌入∅,然后,这些都是用w(中)的指导尺度外推的
  • 我们仅通过采用重建MSE损失(红色)来优化无条件嵌入∅t

使用我们的方法编辑真实图像。
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第2张图片

  • 我们首先对真实输入图像应用一个空文本反转,实现高保真重建。
  • 然后,应用各种基于提示符到提示符的文本编辑操作。
  • 可以看出,我们的反转方案在保持高可编辑性的同时提供了高保真度。参见附录C(图10)中的其他示例。

我们的方法基于两个主要的观察结果:

  • DDIM反演在应用无分类器引导时重构效果不理想,但为优化提供了良好的起点,使我们能够高效地实现高保真反演。
  • 其次,优化用于无分类器引导的无条件空嵌入,允许精确的重建,同时避免模型和条件嵌入的调整。

3.1 background and preliminaries

文本引导扩散模型旨在将随机噪声向量zt和文本条件P映射到一个输出图像z0,该输出image z0对应于给定的条件提示符。为了实现序列去噪,训练网络εθ对人工噪声进行预测,遵循目标:
在这里插入图片描述
其中,在这里插入图片描述
是文本条件的嵌入。

在推断的时候:给定一个噪声向量zT,使用我们训练好的T步网络对噪声进行连续预测,从而逐步去除噪声。

采用the deterministic DDIM sampling [35]:
在这里插入图片描述

扩散模型通常在图像像素空间中运行,其中z0是实数图像的样本。

我们使用流行和公开的稳定扩散模型[30],其中扩散前向过程应用于潜在图像编码z0 = E(x0),扩散后向过程x0 = D(z0)的末端使用图像解码器。

Classifier-free guidance.

更正式地说,设∅= ψ(“”)为空文本的嵌入值,设w为引导尺度参数,则无分类器引导预测定义为:
在这里插入图片描述

DDIM inversion

ODE过程可以在小步骤的限制下进行反转:
在这里插入图片描述
换句话说,扩散过程以相反的方向进行,即z0→zT而不是zT→z0,其中z0设置为给定实像的编码。

3.2 Pivotal Inversion

特别是,我们的目标是围绕一个关键噪声向量进行优化,这是一个很好的近似,因此允许更有效的反演。

我们把这个w = 1的初始DDIM反转作为我们的枢轴轨迹

我们的优化最大化了与原始图像的相似性,同时保持我们执行有意义的编辑的能力。
在实践中,我们按照扩散过程t = t→t = 1的顺序对每个时间戳t执行单独的优化,目的是尽可能接近初始轨迹z * t,…, z * 0:
在这里插入图片描述

其中zt - 1为优化的中间结果。

3.3. Null-text optimization

我们利用了无分类器引导的关键特征-结果受到无条件预测的高度影响。因此,我们将默认的空文本嵌入替换为优化后的,叫做Null-text optimization。 即,对于每个输入图像,我们只优化无条件嵌入∅,初始化为空文本嵌入。模型和条件文本嵌入保持不变。
我们将优化单个无条件嵌入∅称为全局空文本优化。

对于每个时间步, 优化:
在这里插入图片描述
更新规则:
在这里插入图片描述

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第3张图片

Experiments

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第4张图片

  • 顶部:我们将我们的完整算法(绿线)与不同变体的性能进行比较,通过测量PSNR分数作为数量优化迭代的函数和运行时间(以分钟为单位)来评估重构质量。
  • 下:我们直观地展示了我们的完整算法经过200次迭代后的反演结果(在右边)与其他基线的比较。所有迭代的结果显示在附录B中(图13和14)。

[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第5张图片
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第6张图片
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第7张图片
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第8张图片
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models_第9张图片

你可能感兴趣的:(Diffusion,人工智能,深度学习,计算机视觉,Inversion,Diffusion)