Stability AI 新发布SDXL Turbo:一款实时文本到图像生成模型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

关键要点总结:

  1. SDXL Turbo采用了新的蒸馏技术,实现了业界领先的性能,使单步图像生成质量达到前所未有的高度,将所需步骤数从50步减少到仅需1步。
  2. 有关该模型新蒸馏技术的具体技术细节,请参阅我们的研究论文。该技术利用了对抗训练和评分蒸馏的组合。
  3. 目前,该模型的权重和代码可在Hugging Face下载,目前以非商业研究许可发布,仅允许个人非商业使用。

在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,体验实时文本到图像生成功能的beta演示。

今天,Stability AI 发布了SDXL Turbo,一种新的文本到图像模式。SDXL Turbo基于一种名为对抗扩散蒸馏(ADD)的新蒸馏技术,该技术使模型能够一步合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出。对于对技术细节感兴趣的研究人员和爱好者,Stability AI 的研究论文可在此处查看 https://stability.ai/research/adversarial-diffusion-distillation。重要的是要注意,SDXL Turbo目前尚不适用于商业用途。

对抗扩散蒸馏的优势

SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了文本到图像模型的新蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。详细介绍该模型新蒸馏技术的SDXL Turbo研究论文可在此处查看https://stability.ai/research/adversarial-diffusion-distillation。

与其他扩散模型相比的性能优势

为了选择SDXL Turbo,Stability AI 比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),使用相同的提示生成输出。然后,人类评估员随机显示两个输出,并被要求选择最符合提示方向的输出。接下来,使用相同的方法完成了图像质量的额外测试。在这些盲测中,SDXL Turbo在单步中就能超过LCM-XL的4步配置,以及仅用4步就能超过SDXL的50步配置。通过这些结果,Stability AI 可以看到SDXL Turbo在显著降低计算需求的同时,无需牺牲图像质量,就超越了最先进的多步模型。

Stability AI 新发布SDXL Turbo:一款实时文本到图像生成模型_第1张图片

此外,SDXL Turbo还大幅提高了推理速度。在A100上,SDXL Turbo生成512x512图像的时间为207ms(提示编码+单次去噪步骤+解码,fp16),其中67ms由单个UNet前向评估占据。

探索SDXL Turbo与Clipdrop

要测试这款新模型的功能,请访问Stability AI的图像编辑平台Clipdrop https://clipdrop.co/stable-diffusion-turbo,体验SDXL Turbo实时图像生成的beta演示。它兼容大多数浏览器,目前可免费试用。

看看测试

测试

你可能感兴趣的:(人工智能,计算机视觉)