文本转图像 | 新开源模型Stable Diffusion

机器之心 编辑:小舟

Stable Diffusion 模型无需预处理和后处理,几秒钟内就能创造出令人惊叹的艺术图像。

根据文本生成图像是近来大火的一个研究方向。无论是英伟达的 GauGAN,还是 OpenAI 的 DALL·E,都获得了令人印象深刻的结果。但这些模型都是参数量过亿的超大模型,普通的消费级 GPU 根本无法支持。

现在,来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》,并与 Eleuther AI、LAION 等团队合作,共同开发了一种可在消费级 GPU 上运行的文本转图像模型 Stable Diffusion,目前项目代码已开源。

文本转图像 | 新开源模型Stable Diffusion_第1张图片

代码地址:https://github.com/CompVis/stable-diffusion

Stable Diffusion 模型是首个在 4000 个 A100 Ezra-1 AI 超大集群上进行训练的文本转图像模型。在测试方面,研究团队已经和 10000 多名 beta 测试用户一起大规模测试该模型,每天可创建 170 万张图像。该研究后续还将发布该模型输出的开放合成数据集。

Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的图像,无需预处理和后处理,这是速度和质量上的突破。

文本转图像 | 新开源模型Stable Diffusion_第2张图片

文本转图像 | 新开源模型Stable Diffusion_第3张图片

有网友使用 Stable Diffusion 模型的 beta 试用版模拟了世界的发展过程,效果非常震撼。

文本转图像 | 新开源模型Stable Diffusion_第4张图片

包括宇宙的演变:

生物的进化:

人类文明的发展:

论文方法

文本转图像 | 新开源模型Stable Diffusion_第5张图片

论文地址:https://arxiv.org/pdf/2112.10752.pdf

该研究试图利用扩散模型实现文字转图像。尽管扩散模型允许通过对相应的损失项进行欠采样(undersampling)来忽略感知上不相关的细节,但它们仍然需要在像素空间中进行昂贵的函数评估,这会导致对计算时间和能源资源的巨大需求。该研究通过将压缩与生成学习阶段显式分离来规避这个问题,最终降低了训练扩散模型对高分辨率图像合成的计算需求。

文本转图像 | 新开源模型Stable Diffusion_第6张图片

该研究使用一个自动编码模型学习一种空间,该空间在感知上与图像空间等效,却能显著降低计算复杂度。

文本转图像 | 新开源模型Stable Diffusion_第7张图片

这种方法提供了几个优点:

  • 通过离开高维图像空间获得计算效率更高的 DM,因为采样是在低维空间上执行的;

  • 利用从其 UNet 架构继承的 DM 的归纳偏置,使得模型对具有空间结构的数据特别有效,减轻了先前方法对所需压缩级别的要求;

  • 获得了通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,例如单图像 CLIP 引导合成。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

参考链接:https://stability.ai/blog/stable-diffusion-announcement

猜您喜欢:

81f43b7ce8255407241843c8d57c711f.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉前沿弄潮儿!

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

文本转图像 | 新开源模型Stable Diffusion_第8张图片

你可能感兴趣的:(机器学习,人工智能,深度学习,计算机视觉,python)