Improved Denoising Diffusion Probabilistic Models 论文阅读

前言

DDPM模型虽然在生成任务上达到了不错的效果,但是也同样存在一些问题,例如采样时间过长、对数似然不高等。对数似然是生成模型中广泛使用的指标,优化对数似然迫使生成模型学习各个数据分布,使得模型的多样性大大提高。此外,对数似然性的微小改进可以对样本质量和学习的特征表示产生巨大影响。论文在此基础上进行改进,①DDPM原来的方差系数是固定的,现在采用学习的方式;②对损失函数进行改进,在原来的MSE损失加入了混合损失;③对比改进后的DDPM和DDIM采样速度和质量,以及和GAN模型的采样质量、参数大小进行对比。

Improving the Log-likelihood

为了进行改进前后的模型对比,实验分别在CIFAR-10和ImgaNet两个数据集进行(CIFAR10是人脸专用的数据集),在ImageNet也进行实验的原因是这样的数据集的分布更加多样,不用担心过拟合的问题。将步数从T=1000到T=4000,可以将对数似然提升至3.77。

Learning Σθ (xt, t)(可学习方差)

在DDPM中,原始推理过程的方差是下式的\tilde{\beta t},后来作者实验发现直接用\beta t来代替对采样结果的影响不大,两者都是固定方差(这个固定是相对可学习的参数来说的),在下图的实验结果中也同样发现这个,两者的比值随着步数t的增加不断趋近于相同,在大步数的实验中更加明显。在下面第三幅图中显示了采样过程和NLL(采样指标)的关系,最开始的步骤对采样过程的变化比较明显。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第1张图片

Improved Denoising Diffusion Probabilistic Models 论文阅读_第2张图片

 所以,提出了一种可学习的方差方法,将方差参数化为\beta t\tilde{\beta t}之间log函数的内插。于是有了下面这个方差,模型输出一个向量v,每个维度包含一个分量,将该输出转换为方差,如下所示。

 经过这个改进后,逆扩散过程的均值和方差都有一部分是可学习的参数,于是,为了引导方差参数的学习,在损失函数上也进行改进,变成了混合损失,Lsimple是引导均值参数的学习,Lvlb是引导方差参数的学习。λ的权重为0.001,去避免过度影响Lsimple,如下所示。

Improving the Noise Schedule

在原来DDPM中的前向扩散过程中的噪声参数表,即\alpha t\beta t都是通过在一定范围内线性插值得到的,下面上图实验结果说明在前向扩散过程中,最后一些步的加噪过程对采样质量的影响不大。下图说明的是在当线性噪声表跳过一部分逆扩散过程的步骤时,FID采样质量并没有下降得非常快。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第3张图片

Improved Denoising Diffusion Probabilistic Models 论文阅读_第4张图片

上述想表达的是线性噪声表有时候的扩散或者逆扩散过程的步数对采样质量的贡献不大,也就是说有些步骤是浪费的。所以,论文提出了新的一种cosine噪声表,计算方式如下,是一种更加高效的取值方式。s=0.008.

Improved Denoising Diffusion Probabilistic Models 论文阅读_第5张图片

 下图展示的就是两种方法的比较,在扩散过程的末期,cosine比线性的方法取得的参数降到0速度更加快,也就是说减少了扩散过程末期那些对采样质量没有必要的步骤,从而更加高效。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第6张图片

 Reducing Gradient Noise

这一段主要是对比实验,比较LsimpleLhybrid的效果。下图所示在整个学习过程中,在相同的训练时间时,混合损失可以达到更大的对数似然值。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第7张图片

 下图所示是另外一组实验,通过证明了Lvlb是要比Lhybrid噪声梯度更加大,因而可以通过继续优化Lvlb来获得更大的对数似然值。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第8张图片

 于是,提出了新的方法,如下图所示,当计算某一步的损失时,会保留前面十个记录进行平方和来计算。Figure 6 就显示出了重新采样的Lvlb(resample)的优势,确实噪声梯度会更小并且更加稳定。但是,最后得到的结论是这种方法对Lhybrid方法的效果并不明显。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第9张图片

 Results and Ablations

基于以上改进作者进行了消融实验,对比是否真的有效果。可以看到对比原来的DDPM中的方法,包括LinearLsimple来说,cosineLhybrid确实在NLL和FID上有一定的提升。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第10张图片

 另外,论文也和其他基于对数似然估计的生成模型进行了实验对比,如下图所示,虽然没有同时达到最好的效果,但是证明改进之后的DDPM确实是有提升,并且和其他模型相比是有一定竞争力的。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第11张图片

 逆扩散(采样)过程速度改进

前面使用的Lhybrid已经证明了比原来是损失函数更加高效,因而可以加速逆扩散过程。

其次是新的一个噪声取值方式,和一个序列s使得将对参数采样时不仅和t有关,还和方差连接起来。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第12张图片

 下图为实验对比,可以看到对比DDPM来说,在同样的逆扩散推理步骤时,改进的方法采样的质量更加好。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第13张图片

 和GAN对比

Improved Denoising Diffusion Probabilistic Models 论文阅读_第14张图片

GAN虽然生成更加准确,但是图像的细节质量不够好,主要表现在FID这项指标上。另外就是召回率也更低,意味着改进后的DDPM更能概括模型的数据分布。

计算量

下图所展示的就是改进后的DDPM模型计算量和NLL和FID指标的关系,基本上是呈现一个幂函数的规律。说明伴随着计算量越大,模型更加复杂,结果也会更加好,取决于具体应该怎么去权衡。论文没有给出具体的原因和解释。

Improved Denoising Diffusion Probabilistic Models 论文阅读_第15张图片

 总结

改进的DDPM主要由两方面,第一个是损失函数,另外就是噪声表的取值方式,论文通过实验证明了这一点,不仅仅可以改进采样质量,也可以改进采样速度。其次就是和其他生成模型的对比以及和DDIM的对比,改进后的DDPM在采样质量和速度上都有一定的竞争性。

 

 

你可能感兴趣的:(论文阅读,python,人工智能)