文生图模型之Stable Diffusion

原始文章地址

autoencoder文生图模型之Stable Diffusion_第1张图片

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。
在这里插入图片描述

文生图模型之Stable Diffusion_第2张图片
文生图模型之Stable Diffusion_第3张图片

SD图生图

文生图模型之Stable Diffusion_第4张图片

SD Inpainting

第一种形式:
文生图模型之Stable Diffusion_第5张图片
第二种形式:
文生图模型之Stable Diffusion_第6张图片

你可能感兴趣的:(AIGC,stable,diffusion)