Diffusion Models

今天看到一篇文章,《GAN 的叹息,扩散模型Diffusion Models》,觉得有点意思,学习了解一下,不看不知道,一看确实吓一跳。。

后续系统学习之后在写原理部分。

瞅瞅别人的论文名字取的,确实有东西《Diffusion Models Beat GANs on Image Synthesis》

最初扩散模型引入是在2015,Deep Unsupervised Learning using Nonequilibrium Thermodynamics,把图像中的像素理解为热力学中运动的分子,生成图像就是熵减过程,把一堆无序的像素排列成可以表达一定信息的图像,天马行空,佩服佩服

21年,stable Diffusion发表,能够从文本生成图像,生成图像效果良好,几个月前,dalle2的效果相当惊艳,可以去参考论文图片。

有些模型的能力可能已经超过了我们的预期和想象倒也不必过分担心如下,我只觉得挺有意思的还,在dalle2中输入,“Two whales talking about food , with subtitles”得到如下图像Diffusion Models_第1张图片

 字幕是我们看不懂的东西,但是如果把这一串看不懂的东西再次输入回模型,有意思的事情发生了,诶嘿,生成的东西全是吃的,这也符合两只鲸鱼的食物,妙啊!!

 回头再仔细研究!

你可能感兴趣的:(深度学习,计算机视觉)