本文:
本文结果:
这项工作的目的:
作者:
回顾了Diffusion Models的前向过程和逆向过程,以及其对应的表达式。
我们简要地描诉了一个更普遍的分类随机变量扩散框架:
对于具有K个类别的标量离散随机变量 x t , x t − 1 x_t,x_{t-1} xt,xt−1,他们的前向转移概率,可以用矩阵表示:
[ Q t ] i j = q ( x t = j ∣ x t − 1 = i ) [Q_t]_{ij}= q(x_t=j|x_{t-1}=i) [Qt]ij=q(xt=j∣xt−1=i)
用行向量 x \mathrm{x} x来表示 x x x的one-hot向量,则可以把概率改写为:
q ( x t ∣ x t − 1 ) = C a t ( x t ; p = x t − 1 Q t ) q(\mathrm{x_t}|\mathrm{x_{t-1}}) = Cat(\mathrm{x_t};p=\mathrm{x_{t-1}}Q_t) q(xt∣xt−1)=Cat(xt;p=xt−1Qt)
从而推理得到 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt−1∣xt,x0)的计算公式,并且证明了如何在大K和大T时计算得到 Q t ‾ \overline{Q_t} Qt
D3PM框架的一个优点是:能通过选择 Q t Q_t Qt来控制数据损坏和去噪过程。
选择 Q t Q_t Qt的约束有两点:
为了控制前向corruption过程和可学习的反响去燥过程,向过渡矩阵 Q t Q_t Qt添加domain-dependent structure领域依赖性结构是有意义的。矩阵类型有:
前向过程中,几种不同的噪声方案:
跟随HO等人,使用神经网络预测了 p θ ~ ( x 0 ~ ∣ x t ) \widetilde{p_\theta}(\widetilde{x_0}|x_t) pθ (x0 ∣xt)的对数的分布,得到了一个参数化的过程。在这个参数化的过程下,有可能导致KL值为0.
再根据前面 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt−1∣xt,x0)的表示,得知最优的反向过程,只考虑了 q ( x t ∣ x t − 1 ) q(x_t|x_{t-1}) q(xt∣xt−1)是非零的情况。
由上可得, Q t Q_t Qt的稀疏模式决定了 p θ ( x t − 1 ∣ x t ) p_\theta(x_{t-1}|x_t) pθ(xt−1∣xt)最理想的逆向转换概率。而跟随HO等人的参数化过程也确保了学习到的反向概率分布 p θ ( x t − 1 ∣ x t ) p_\theta(x_{t-1}|x_t) pθ(xt−1∣xt) 具有正确的稀疏模式。
最后,这种参数化能够让我们一次进行k步推理,在预测 p θ ( x t − 1 ∣ x t ) p_\theta(x_{t-1}|x_t) pθ(xt−1∣xt)的过程中。
最后作者提出,在建立有序离散数据的模型时,与其直接用神经网络的输出来预测 p θ ~ ( x 0 ~ ∣ x t ) \widetilde{p_\theta}(\widetilde{x_0}|x_t) pθ (x0 ∣xt)的对数的,不如用截断的离散的对数分布来模拟概率。这样做还能提高图像的FID的分数和log-likelihood分数。
我们为反向过程的 x 0 x_0 x0参数化引入了一个辅助去噪目标。新的Loss函数 L λ L_\lambda Lλ直接监督了模型的输出 p θ ~ ( x 0 ~ ∣ x t ) \widetilde{p_\theta}(\widetilde{x_0}|x_t) pθ (x0 ∣xt)。用这种损失进行训练可以提高图像样本的质量。
通过公式变换,说明了BERT、自回归模型,(生成式)Masked Language-Models这三类模型都是扩散模型。
作者在两个数据集text8和LM1B上,训练了三个模型:
结果显示,D3PM absorbing模型的表现最好,远超于Uniform 和 NN的模型。且当L=0.01时对D3PM Absorbing效果最好,Lvb对D3PM Uniform效果最好。
结果显示,D3PM absorbing模型的表现最好。且当L=0.01时对D3PM Absorbing效果最好。不仅如此,复杂度大大降低,在推理步骤少于10步时就取得了很好的效果。
用数据姐CIFAR-10来评估三个模型:
最佳结果:D3PM Guass+用 L λ L_\lambda Lλ训练+在反向过程中用截断对数参数化的分布模拟。
λ = 0.001 \lambda=0.001 λ=0.001时效果最好
一些相关工作
D3PMS是通过定义新的离散退化过程来改进离散数据的扩散模型,比之前提出的离散扩散模型实验结果好得多。甚至在图像生成的ll上超过了连续扩散模型的性能。但文本生成方面仍然比不上Transformer XL这样的强回归模型。
D3PM的进一步发展:
未来可以有更多的可能性,可以利用更加丰富的结构形式来定义更强大的离散扩散模型。