大模型 Dalle2 学习三部曲(三)Hierarchical Text-ConditionalImage Generation with CLIP Latents 论文学习
前言:今天我们来学习一下Dalle2论文上篇文章我们说latencydiffusion把图像和文本先压缩到隐空间再进行diffusion,大大提升了diffusion过程的效率,其实我们想想diffusion过程其实我们也完全没必要一直扩散到纯噪声再还原为图像,我们只需要扩散到适合我们生成图像的时候就可以。正所谓好钢用在刀刃上,效果好费时的扩散过程我们只要在关键位置使用就可以,即达到效果,又节省了