免费云端Stable Diffusion部署体验

体验攻略地址: 免费云端Stable Diffusion部署体验 - Clark (dongyao.ren)


什么是 Stable Diffusion?

2022 年发布的稳定扩散(Stable Diffusion[1]) 是一个文本到图像生成的深度学习模型。它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及基于文本提示(英文)生成图像到图像的转换。该模型是由初创公司 Stability AI[2] 与一些学术研究机构和非营利组织合作开发的。

Stable Diffusion 是一种潜在扩散模型,它的开发由初创公司 Stability AI 资助和塑造,模型的技术许可证由慕尼黑大学的 CompVis 小组发布。开发工作由 Runway[3] 的 Patrick Esser 和 CompVis[4] 的 Robin Rombach 领导,他们是早期发明稳定扩散使用的潜在扩散模型架构的研究人员之一。Stability AI 还将 EleutherAI[5] 和 LAION[6](一家德国非营利组织,他们组织了 Stable Diffusion 训练的数据集)列为该项目的支持者。

Stable Diffusion 的代码和模型权重已开源,并且可以在大多数消费级硬件上运行,配备至少 8 GB VRAM(Video random-access memory[7])的适度 GPU。而以前的专有文生图模型(如 DALL-E[8] 和 Midjourney[9])只能通过云服务访问。

Stable diffusion的原理可以分为以下几个步骤:

1. stable diffusion使用一个新颖的文本编码器(OpenCLIP),由LAION开发并得到Stability AI的支持,将文本输入转换为一个向量表示。这个向量表示可以捕捉文本的语义信息,并与图像空间对齐。

2. stable diffusion使用一个扩散模型(Diffusion Model),将一个随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,可以从训练数据中学习出一个概率分布,并从中采样出新的数据。

3. 在扩散过程中,stable diffusion利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布。这样,stable diffusion可以根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。

4. 最后,stable diffusion使用一个超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高的分辨率。超分辨率放大器也是一个扩散模型,可以从低分辨率图像中恢复出细节信息,并增强图像质量。

通过以上步骤,stable diffusion可以实现从文本到图像的生成,并且具有以下优点:

- stable diffusion可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。

- stable diffusion可以生成高达2048x2048或更高的分辨率的图像,并且保持了良好的视觉效果和真实感。

- stable diffusion还可以进行深度引导(Depth-guided)和结构保留(Structure-preserving)的图像转换和合成。例如,它可以根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。

你可能感兴趣的:(stable,diffusion)