IP-Adapter 的结构和 SD 的差别不是特别大,可以参考 【扩散模型(二)】 中的结构图进行快速理解,本文则将详细介绍其 IP-Adapter 的训练过程。
扩散模型还可以基于其他输入进行条件生成,例如在文本到图像扩散模型中使用文本作为条件。通常,扩散模型的训练目标记为 ε θ εθ εθ,即预测噪声的模型,定义为变分界限的简化形式:
L simple = E x 0 , ε ∼ N ( 0 , I ) , c , t [ ∥ ε − ε θ ( x t , c , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon \sim \mathcal{N}(0, I), c, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c, t)\|^2 \right] Lsimple=Ex0,ε∼N(0,I),c,t[∥ε−εθ(xt,c,t)∥2]
其中, x 0 x_0 x0 表示带有附加条件 c c c 的真实数据, t ∈ [ 0 , T ] t ∈ [0, T] t∈[0,T] 表示扩散过程的时间步长, x t = α t x 0 + σ t ε x_t = α_tx_0 + σ_tε xt=αtx0+σtε 是第 t t t 步的噪声数据,而 α t α_t αt 和 σ t σ_t σt 是决定扩散过程的预定义函数。
一旦模型 ε θ ε_θ εθ 训练完成,图像可以通过迭代方式从随机噪声生成。通常,在推理阶段采用快速采样器如 DDIM1、PNDM2 和 DPM-Solver34 来加速生成过程。
对于条件扩散模型,分类器指导5是一种直接利用独立训练的分类器的梯度来平衡图像保真度和样本多样性的技术。为了避免额外去独立训练一个分类器,常采用无分类器指导(classifier-free guidance)6作为替代方法。
在无分类器指导方法中,通过随机丢弃条件 c c c 来联合训练条件和无条件扩散模型。在采样阶段,预测的噪声基于条件模型 ε θ ( x t , c , t ) ε_θ(x_t, c, t) εθ(xt,c,t) 和无条件模型 ε θ ( x t , t ) ε_θ(x_t, t) εθ(xt,t) 的预测进行计算:
ε ^ θ ( x t , c , t ) = w ε θ ( x t , c , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c, t) = w\varepsilon_{\theta}(x_t, c, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,c,t)=wεθ(xt,c,t)+(1−w)εθ(xt,t)
这里, w w w(通常称为指导尺度或指导权重)是一个标量值,用于调整与条件 c c c 的对齐程度。对于文生图的扩散模型,无分类器指导在增强生成样本的图像与文本对齐方面起着至关重要的作用。
在 IP-Adapter 中,作者利用开源的 SD 模型。SD 是一个基于冻结(不参与训练)的 CLIP 文本编码器提取的文本特征进行条件生成的潜在扩散模型。该扩散模型的架构基于具有注意力层的 UNet 7。与 Imagen 这样的基于像素的扩散模型相比,SD 更高效,因为 SD 是在一个预训练的自动编码器模型的潜在空间上构建的。
在训练期间,作者仅优化 IP-Adapter,而保持预训练的扩散模型的参数不变。IP-Adapter 同样在包含图像-文本对的数据集8上进行训练,使用与原始稳定扩散(Stable Diffusion)相同的训练目标:
L simple = E x 0 , ε , c t , c i , t [ ∥ ε − ε θ ( x t , c t , c i , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon, c_t, c_i, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c_t, c_i, t)\|^2 \right] Lsimple=Ex0,ε,ct,ci,t[∥ε−εθ(xt,ct,ci,t)∥2]
并且在训练阶段随机丢弃图像条件,以便在推理阶段启用无分类器指导(classifier-free guidance):
ε ^ θ ( x t , c t , c i , t ) = w ε θ ( x t , c t , c i , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c_t, c_i, t) = w\varepsilon_{\theta}(x_t, c_t, c_i, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,ct,ci,t)=wεθ(xt,ct,ci,t)+(1−w)εθ(xt,t)
在这里,如果图像条件被丢弃,就简单地将 CLIP 图像嵌入置为零。由于文本交叉注意力和图像交叉注意力是分离的,还可以在推理阶段调整图像条件的权重:
Z new = Attention ( Q , K , V ) + λ ⋅ Attention ( Q , K ′ , V ′ ) Z_{\text{new}} = \text{Attention}(Q, K, V) + \lambda \cdot \text{Attention}(Q, K', V') Znew=Attention(Q,K,V)+λ⋅Attention(Q,K′,V′)
其中, λ \lambda λ 是权重因子,如果 λ = 0 \lambda = 0 λ=0 ,模型就变成原始的文本到图像扩散模型。
为了训练 IP-Adapter,作者构建了一个多模态数据集,包括从两个开源数据集 LAION-2B 9和 COYO-700M 10 获取的大约 1000 万个图像-文本对。
IP-Adapter 的训练目标和 SD 的原始训练目标一致,但由于仅仅训练投影网络和适配模块(Image prompt 输入的 cross attention),可训练参数量非常轻量化(仅 22M)。
