Dimba: Transformer-Mamba Diffusion Models————3 Methodology
图解图片中的每个模块详解1.文本输入(Text)描述:输入的文本描述了一个具有具体特征的场景。功能:提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述:使用T5模型将文本转换为特征向量。功能:提取文本中的语义信息,为后续的图像生成提供条件。3.图像输入(Image)描述:输入图像通过变分自编码器(VAE)编码器处理。功能:将图像转换为潜在表示,用于添加噪声并进行扩散过程。