Imagen 怎么工作的

原始英文链接: 

How Imagen Actually Works

Imagen 怎么工作的_第1张图片

字幕被输入到一个预训练和冻结的 Transformer 编码器中,该编码器输出一个向量序列(文本编码)。这些向量很重要,因为它们对标题中的单词如何相互关联进行编码,并充当模型所有其他组件的条件信息。

然后将文本编码传递到图像生成扩散模型,该模型从高斯噪声开始,然后逐渐去除噪声以生成反映标题中语义信息的新图像。该模型的输出是一个 64x64 像素的图像。

在此之后,再使用两个扩散模型将此图像超分辨率为最终的 1024x1024 大小,同样以文本编码(以及较低分辨率的图像)为条件。

你可能感兴趣的:(深度学习算法,机器学习,Imagen,计算机视觉,深度学习)