扩散模型发展小结

DALL.E 2:

应用:

1.根据文字的描述来生成文本。
2.在图上的指定位置生成物体。
3.根据一幅图像生成相似的另一幅图像。

目前开源的情况:DALL.E mini

大流程:

text->(clip)text embedding->(prior)image embedding->(decoding)image

全部都是,扩散模型

图像生成模型:

GANs

真实性很高,但是多样性很少,只是通过初始噪声的不同来创造不同,而且训练不稳定,容易发生坍塌,并非概率模型,不知道分布

Auto Encoder(AE)

Denosing Auto Encoder(DAE),出现的根本原因是图像的冗余性太高了,就像 MAE一样,进行遮挡之后,模型还是可以提取很多有用的信息
bottleneck学到的特征不是一个概率分布,而是一个用于重建的特征
可以用于分类检测分割

(VAE)Varitional Auto Encoder:

学习到的bottleneck 是一个高斯分布,具有均值和方差,所以训练完成之后,从模型中进行采样,就可以生成图片。

VQ-VAE

Vector Quantization Varitional-Auto-Encoder 仿照我们实际处理信号的时候,一般都是经过量化的截断信号,然后分布被定为一个codebook 是一个有长宽的图,相当于很多聚类中心,当我们得到一个新的特征向量的时候,我们去codebook中寻找距离最近的中心

但是实际上,这里还不能直接用于图像生成,code book还需要训练一个网络来和图像建立起对应关系。

扩散模型:

加噪声的反向操作

发展历程
DDPM(Denosing Diffusion Probabilistic Model):
两个贡献:
一:用xt预测xt-1转化为假设xt=xt-1+residual的形式residual这里就是噪声
(很像resnet)
二:发现预测正态分布的时候,不需要预测方差,预测正态分布即可,方差给一个常数

你可能感兴趣的:(学习记录,聚类,人工智能)