2024年1月11日最热CV论文:PIXART-δ: FAST AND CONTROLLABLE IMAGE GENERATION WITH LATENT CONSISTENCY MODELS

秒出大作!清华&Hugging Face联手打造PIXART-δ,图像生成速度提升7倍,开源界的Stable Diffusion杀手

引言:图像合成的新纪元——PIXART-δ模型的介绍

在数字图像处理和合成的领域中,模型的进步不仅推动了技术的发展,也为艺术创作和多媒体应用带来了新的可能性。最近,一个名为PIXART-δ的新型框架引起了广泛关注,它在图像合成的速度和控制性上都实现了显著的突破。PIXART-δ是基于先进的PIXART-α模型,通过整合潜在一致性模型(Latent Consistency Model, LCM)和ControlNet,不仅保持了高质量的图像生成能力,还大幅提升了推理速度,使得1024×1024像素的高分辨率图像生成时间缩短至0.5秒,比PIXART-α快了7倍。此外,PIXART-δ的设计还考虑到了训练的高效性,能够在32GB V100 GPU上在一天内完成训练,极大地提高了模型的可用性和普及性。通过引入ControlNet-like模块,PIXART-δ还实现了对文本到图像扩散模型的细粒度控制,为图像合成领域带来了新的革命性进展。

本文内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 智能体可提供每日最热论文推荐、AI论文解读等功能。

如需查看其他热门论文,欢迎移步saibomaliang.com  ^_^

论文标题、机构、论文链接和项目地址

论文标题:

PIXART-δ: FAST AND CONTROLLABLE IMAGE GENERATION WITH LATENT CONSISTENCY MODELS

论文机构:

华为诺亚方舟实验室、大连理工大学、清华大学、香港大学、Hugging Face

论文解读链接:

赛博马良——懂流量密码的新媒体AI员工定制平台

项目地址:

https://github.com/PixArt-alpha/PixArt-alpha

PIXART-δ模型架构解析

1. 集成LCM与ControlNet的创新之举

PIXART-δ模型是在先进的PIXART-α模型基础上,通过集成Latent Consistency Model (LCM) 和 ControlNet,实现了一种高效的文本到图像的合成框架。PIXART-α以其能够通过极其高效的训练过程生成1024px分辨率的高质量图像而著称。在PIXART-δ中,LCM的引入显著加快了推理速度,使得在仅需2-4步骤内就能生成高质量图像成为可能。值得注意的是,PIXART-δ在A100 GPU上生成1024×1024像素图像的时间仅需0.5秒,相比于PIXART-α提升了7倍。此外,PIXART-δ能够在单日内在32GB V100 GPU上高效训练。借助8位推理技术,PIXART-δ能够在8GB GPU内存限制下合成1024px图像,大幅提升了其可用性和可访问性。ControlNet模块的加入,使得模型在细粒度上对文本到图像扩散模型进行控制成为可能。我们引入了专为Transformers设计的新型ControlNet-Transformer架构,实现了显式控制与高质量图像生成的双重目标。作为最新的开源图像生成模型,PIXART-δ为文本到图像合成领域提供了一个有前景的替代方案,对于Stable Diffusion系列模型有着重要的贡献。

2. 高效率训练与快速推理的突破

PIXART-δ模型的训练效率和推理速度的突破,得益于LCM技术的应用。LCM通过将反向扩散过程视为求解增强的概率流常微分方程(PF-ODE),使得在预训练的LDM上仅需2∼4步即可实现高质量且快速的推理。这种方法使得PIXART-δ在保持高质量生成的同时,将生成单张1024×1024像素图像的时间缩短至0.5秒。此外,我们还支持LCM-LoRA技术,以提供更好的用户体验和便利性。ControlNet模块的集成,提供了对文本到图像扩散模型输出的精细控制。我们提出的ControlNet-Transformer架构,专门为Transformer模型定制,实现了显式控制并获得了高质量的图像生成。

LCM技术详解:加速图像生成的关键

1. CM与LCM的原理与进展

Consistency Model (CM) 和 Latent Consistency Model (LCM) 在加速生成模型方面取得了显著的进展。CM由Song等人在2023年提出,已经证明了其在ImageNet数据集上能够在保持生成图像质量的同时加速采样。CM的一个关键点是在训练过程中尝试保持自我一致性属性(一致性映射技术),这允许将任何数据点在概率流常微分方程(PF-ODE)轨迹上映射回其起点。LCM由Luo等人在2023年提出,将CM的成功扩展到了当前最具挑战性和流行的LDMs,如Stable Diffusion和SD-XL在文本到图像生成任务上。LCM通过直接预测潜在空间中增强的PF-ODE的解,加速了反向采样过程。LCM结合了几种有效的技术(例如,一阶段引导蒸馏,跳步技术),在Stable Diffusion模型上实现了显著的快速推理速度和快速的训练收敛。LCM-LoRA(Luo等人,2023b)通过LoRA方法训练LCM,展示了强大的泛化能力,将其确立为一个通用的Stable Diffusion加速模块。总之,CM和LCM通过引入更快的采样技术同时保持生成输出的质量,为实时生成应用铺平了道路。

2. LCM在PIXART-δ中的应用与优化

在PIXART-δ中,我们采用Latent Consistency Distillation (LCD)技术在120K内部图像-文本对上训练PIXART-δ。我们首先提供了详细的训练算法和对特定修改的消融研究。我们展示了PIXART-δ的训练效率和LCM的加速效果。最后,我们介绍了PIXART-δ的训练细节。LCD算法源自原始的Consistency Distillation (CD)算法和LCD算法,我们在算法1中展示了带有分类器自由引导(CFG)的PIXART-δ的伪代码。在训练过程中,我们首先在时间点tn+k采样噪声,然后使用Teacher Model进行去噪以获得ˆzTt0,接着使用ODE求解器Ψ(·,·,·,·)计算ˆzΨ,ω。EMA Model随后应用于进一步去噪,得到ˆzEt0。与此同时,Student Model在tn+k对样本ztn+k进行去噪,得到ˆzSt0,也就是优化一致性蒸馏目标。与原始LCM不同的是,我们将引导尺度设置为一个常数ωfix,移除了LCM中的引导尺度嵌入操作,以方便实施。我们的研究补充了LCM训练过程的两个关键方面,CFG尺度和批量大小。这些因素使用FID和CLIP分数作为性能基准进行评估。我们观察到,训练过程在大约5000次迭代后趋于收敛。此后,进一步的改进是微乎其微的。我们根据Hoogeboom等人在2023年和Chen在2023年的工作,调整了LCM中的噪声计划函数,以与PIXART-α的噪声计划相匹配,该计划在蒸馏训练期间具有更高的logSNR(信噪比)。PIXART-δ能够参数化更广泛的噪声分布,这一特性进一步提升了图像生成的效果。

ControlNet的变革:精细控制图像合成

1. ControlNet的设计与功能

ControlNet是一种用于文本到图像扩散模型的控制模块,它通过特殊的结构设计,实现了对生成图像布局的精细控制。在ControlNet中,引入了一个可训练的UNet副本,这个副本允许对输入条件进行操纵,从而控制生成图像的整体布局。在训练过程中,ControlNet冻结了原始的文本到图像扩散模型,并只优化这个可训练的副本。通过“零卷积”层将这个副本的每一层输出与原始UNet的对应层进行跳跃连接,有效地避免了有害噪声的干扰。这种创新的方法有效地防止了过拟合,同时保留了预训练UNet模型的质量,该模型最初是在包含数十亿图像的大型数据集上训练的。ControlNet为各种条件控制,如边缘、深度、分割和人体姿态等,打开了新的可能性,并在控制图像扩散模型方面发挥了重要作用。

2. ControlNet-Transformer的创新结构

ControlNet-Transformer是为Transformer模型量身定制的一种新型结构,它在保持ControlNet在管理控制信息和高质量图像生成方面的有效性的同时,实现了对Transformer模型的有效整合。与UNet不同,Transformer模型缺乏明确的“编码器”和“解码器”块,因此传统的ControlNet结构无法直接应用。为了解决这一挑战,我们提出了ControlNet-Transformer这一创新方法,通过将ControlNet结构应用于Transformer模型的初始N个基础块,生成N个可训练的基础块副本。每个可训练块的输出通过零线性层连接,然后与相应的冻结块输出相加,作为下一个冻结块的输入。这种设计遵循了PixArt的原始数据流,并且我们的观察强调了ControlNet-Transformer在可控性和性能方面的显著提升。在我们的最终设计中,N=13被认为是最优选择。

训练效率与推理速度:PIXART-δ的性能评估

1. 训练算法与超参数的影响

PIXART-δ的训练过程中,我们采用了Latent Consistency Distillation (LCD)算法,并在训练中引入了分类器无指导(CFG)的概念。我们发现,使用固定的指导比例ωfix,而不是LCM中更复杂的CFG嵌入,可以在PIXART-δ中提高性能并简化实现。此外,我们还研究了批量大小对模型性能的影响。结果表明,更大的批量大小对FID和CLIP分数有积极影响。然而,即使是较小的批量大小,PIXART-δ也能快速收敛并获得可比的图像质量。我们还观察到,训练过程在大约5000次迭代后趋于收敛,之后的改进非常有限。

2. 噪声调度的调整与优化

噪声调度是扩散过程中最重要的部分之一。我们根据Hoogeboom等人(2023年)和Chen(2023年)的工作,调整了LCM中的噪声调度函数,使其与PIXART-α的噪声调度相匹配。这种调整使PIXART-δ能够参数化更广泛的噪声分布,进一步提升了图像生成的质量。

3. 训练效率与推理速度的对比分析

在训练效率方面,我们成功地在32GB GPU内存限制下完成了蒸馏过程,同时保持了相同的批量大小,并支持高达1024×1024的图像分辨率。这种训练效率显著地使PIXART-δ能够在各种消费级GPU规格上进行训练。在推理速度方面,PIXART-δ在不同硬件平台上的生成速度与其他方法相比具有显著优势。例如,在A100上,PIXART-δ生成1024x1024高分辨率图像的时间仅为0.5秒,而在T4上为3.3秒,在V100上为0.8秒,批量大小为1。这是与其他方法相比的显著改进,例如,SDXL标准在T4上需要26.5秒,在A100上需要3.8秒。PIXART-δ以仅4步的速度保持了生成速度的领先地位,而PIXART-α和SDXL标准分别需要14步和25步。值得注意的是,通过实现8位推理技术,PIXART-δ的GPU VRAM需求不到8GB。这种显著的效率使PIXART-δ能够在广泛的GPU卡上运行,甚至有可能在CPU上运行。

实验设置与结果:验证PIXART-δ的有效性

1. 实验条件与网络架构的变化

PIXART-δ是一个集成了Latent Consistency Model (LCM)和ControlNet的文本到图像合成框架,它在PIXART-α模型的基础上进行了改进。PIXART-α以其高效的训练过程和生成1024px分辨率的高质量图像而闻名。通过将LCM集成到PIXART-δ中,推理速度显著加快,仅需2-4步即可生成高质量图像。PIXART-δ在A100 GPU上生成1024×1024像素图像的时间仅需0.5秒,比PIXART-α快了7倍。此外,PIXART-δ支持在32GB V100 GPU上的高效训练,并能在单日内完成。利用8位推理技术,PIXART-δ能够在8GB GPU内存限制下合成1024px图像,大大提高了其可用性和可访问性。ControlNet-Transformer的引入,为文本到图像扩散模型提供了细粒度的控制能力。

2. ControlNet-Transformer的性能评估

ControlNet-Transformer是为Transformer模型量身定制的新架构,它在保持高质量图像生成的同时,实现了显式的可控性。通过对ControlNet-UNet和ControlNet-Transformer的对比研究,发现ControlNet-Transformer在与Transformer模型的数据流自然匹配方面表现更佳,从而在控制性和性能上都有所提升。在对ControlNet-Transformer的不同复制块数量进行消融研究时,发现在大多数情况下,即使只有N=1的复制块也能取得满意的结果。但在处理复杂的边缘条件时,随着N的增加,性能有所提高。最终确定N=13为最佳选择。

3. 高分辨率图像生成的实验结果

PIXART-δ在生成高分辨率图像方面表现出色。通过对1024px图像生成的实验,展示了PixArt-ControlNet在控制图像几何构成方面的精确能力,甚至能够精确到控制单个头发丝。实验结果表明,PIXART-δ不仅能够在1秒内生成高质量的1024px图像,而且还能够实现细粒度的控制。

结论与展望:PIXART-δ在实时应用中的潜力

PIXART-δ通过整合LCM实现了在保持高质量的同时加速4步采样的能力。同时,提出的ControlNet-Transformer为Transformer架构量身定制,使得生成的图像可以进行精确控制。通过广泛的实验,我们证明了PIXART-δ在采样速度上的优势,以及ControlNet-Transformer在高分辨率和可控图像生成方面的有效性。我们的模型能够在1秒内生成高质量的1024px图像,并进行细粒度的控制。PIXART-δ推动了更快、更可控的图像生成技术的发展,为实时应用打开了新的可能性。

本文内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 智能体可提供每日最热论文推荐、AI论文解读等功能。

如需查看其他热门论文,欢迎移步saibomaliang.com  ^_^

你可能感兴趣的:(人工智能,大模型,chatgpt)