论文阅读五:SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

SwiftEdit:单步扩散实现快速的文本引导图像编辑

  • 论文网址:https://arxiv.org/pdf/2412.04301.pdf
  • 代码网址:暂未发布https://swift-edit.github

摘要:基于多步骤扩散的文本到图像模型可以通过简单的文本输入来进行图像编辑。然而,由于这种方式涉及到复杂且成本高昂的多步反演和采样过程,这些方法往往无法满足现实世界和设备端应用对速度的要求。针对上述文本,文本提出了SwiftEdit这一实现快速编辑的工具。它能够实时的进行文本到图像的编辑(仅需0.23s)。本文的主要创新有两点。第一点是通过单步反演框架,实现单步的图像重建。第二点是采用了掩码引导编辑技术以及我们提出的注意力重缩放机制,能够实现局部图像编辑。经过大量实验表明SwiftEdit能够实现快速的图像编辑(比以往方法至少快50步),并且在编辑指令方面也较好。

一,引言

        当前,多数文本到图像扩散模型主要依靠多步采样技术来实现生成图像与文本提示的高度契合。这些方法通常以随机噪声为起点,通过逆向执行扩散过程,逐步还原出逼真的图像。但是这种过程一般都需要经过多次采样,为了攻克采样过程耗时这一难题,部分研究者开始探索采用蒸馏技术来优化采样流程。通过该技术,能够在不牺牲生成效果的前提下,将采样步数显著减少至仅几步,甚至实现一步采样。这一改进不仅大幅提升了图像生成的速度,还有效加快了其下游任务——图像编辑任务的推理速度。

        文本引导图像编辑领域,近期的方法通过反演过程确定添加的噪声,该过程主要包含两个阶段:第一阶段是图像重建,旨在寻找一条合适的扩散轨迹,对源图像进行重建;第二阶段是图像编辑,在保留图像其他细节的同时,依据引导文本对图像进行编辑。在此过程中,利用重建阶段学习到的噪声与文本之间的关系,在每个去噪步骤中运用注意力机制等技术,实现精准的图像编辑。然而,这种方法资源消耗较大,编辑一张图像需要依次完成重建和编辑这两个步骤。为解决资源消耗和时间成本问题,后续有研究采用少步扩散模型,如 SD - Turbo,来减少反演和编辑所需的采样步骤,并借助文本提供额外引导,进而实现精确的图像编辑。不过,该方法仍需执行多次单步操作,才能达到理想的编辑效果。

        本文提出了一种创新的图像编辑方法,基于单步文本到图像模型进行图像编辑,开发出了一款名为SwiftEdit的高效图像编辑工具。与传统的多步方法相比,SwiftEdit在保证编辑质量的同时,显著提升了编辑速度,效率提高了50倍。然而,直接将DDIM等少步骤方法应用于单步去噪,往往会引入伪影,影响生成图像的质量。因此,本文借鉴生成对抗网络(GAN)的思路,设计了一种全新的单步反演框架。在该框架中,我们采用了SwiftBrushv2作为核心组件。SwiftBrushv2是一款以速度、多样性和生成质量著称的单步文本到图像模型。它不仅作为框架中的单步图像生成器,还充当单步图像反演的骨干网络。在训练反演网络时,我们利用SwiftBrushv2的预训练权重进行初始化,并采用两阶段训练策略,使其能够灵活处理各种输入图像。

        本文解决精确编辑:我们的方法能够灵活接收输入掩码,或者从经过训练的反演网络中直接推导出掩码。在此基础上,我们结合了作者提出的注意力重缩放技术,将掩码与背景元素进行精准融合。

        作者认为他们的工作首次探索了基于扩散单步反演,利用单步文本到图像生成模型实现即时文本引导图像编辑(0.23s)。本文的主要贡献如下:

  • 单步反演框架:本文提出了一种创新的单步反演框架,并采用高效的两阶段训练策略进行优化。一旦训练完成,该框架能够将任意输入图像在单步操作中直接反演为可编辑的潜在向量,无需额外的微调步骤
  • 自动生成掩码:本文展示了经过精心训练的反演框架能够在模型的前向传播过程中,根据原始文本提示和目标文本提示自动生成编辑掩码。
  • 注意力重缩放技术:本文还提出了一种新颖的基于掩码编辑的注意力重缩放技术。该技术能够在保留关键背景信息的同时,灵活地控制编辑强度

2,相关工作

2.1,文本到图像的扩散模型

        基于扩散的文本到图像模型通过依赖计算成本高昂的迭代去噪过程,从高斯噪音中生成逼真的图像。近期的一些研究通过将多步教师模型的知识提取到少步学生网络中,缓解这一问题。以下是一些减少采样步骤的一些方法:

  • Instaflow:使用整流流技术在单步内完成训练和并生成图像。整流流技术:给网络设计一条快速通道,通常情况下,训练网络生成图像,就像让一个人从起点走到终点,要经过很多个地方,一步一步慢慢来。但整流流这个技术,给网络搭建了一条特殊的路,让它能直接快速地从起点跑到终点,在一步之内就完成训练和图像生成的工作。
  • DMD:应用分布匹配目标来进行知识迁移,通过调整单步学生模型的分布,使其更接近老师模型的真实数据分布,从而实现知识从教师模型到单步学生模型之间的传递。
  • DMDv2:去除了DMD模型中代价高昂的回归损失(回归损失通常在模型中用于衡量预测值与真实值之间的差异,DMDv2的目标损失只有分布匹配),从而实现高效的采样。
  • SwiftBrush:通常情况下,大多数模型在优化和学习过程中,都需要大量的图像数据作为参照,以此让模型知晓 “正确答案”。然而,SwiftBrush 采用了一种独特的方法 —— 无图像提炼法。这种方法并非依据图像来优化模型,而是借助源文本对图像的描述,以及生成图片的文本描述,来实现对模型的优化。
  • SwiftBrush2:整合了许多预训练的其他模型,将他们的优势结合了起来。并加入了CLIP损失,用来加强文本和图像匹配度。只要给模型一个文本描述,模型就能生成特别符合描述的高质量图像。

这些单步模型中,SwiftBrush2的性能最好,本文使用其作为反演网络和生成器的骨干模型。

2.2,基于文本的图像编辑

什么是图像反演(反演是图像重建的一个重要环节):反演就是根据输出找到模型的最佳输入,使得模型生成结果和输出类似

  • GAN反演通常是一个优化问题。给定一个图像 x,目标是找到一个潜在向量 z,使得生成器 G(z) 的输出尽可能接近 x。
  • 扩散模型反演是指将生成的图像或数据映射回扩散模型的初始噪声空间,找到一个初始噪声向量,使得通过扩散模型的生成过程能够重建出与目标图像或数据相似的结果。这一过程类似于GAN反演,但扩散模型的反演更加复杂,因为它需要处理多步的噪声添加和去噪过程。

多步图像编辑(先反演再编辑):有几种方式利用文本到图像模型中强大的图文关系,通过“先反演在编辑”的方式进行文本引导的多步图像编辑。以下是一些多步图像反演的例子:这些多步反演无法直接应用到及时的实际应用中:

  • DDIM反演:是一种基于DDIM模型的一种反演操作。它使用了噪音预测的线性近似等技术来实现从图像到噪声的逆向推导过程。(线性近似技术:在正常情况下,噪声预测是一个复杂的非线性过程,而线性近似技术做了一个大胆的假设,既认为在一定范围内,图像特征和噪声之间存在线性关系,从数学的角度来看,可以用一个简单的线性方程表示:假设我们用xt表示t时刻的含噪图像,ϵt 表示t时刻要预测的噪声,线性近似会把噪声预测表示为ϵtAx**+b,其中A是一个矩阵,b是一个向量。通过确定Ab的值,就可以根据含噪图像xt快速计算出近

你可能感兴趣的:(论文阅读,图像处理,人工智能,计算机视觉,深度学习)