(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色

Control Color: Multimodal Diffusion-based Interactive Image Colorization

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1. 预备工作:LDM 和 ControlNet

3.2. Control Color 框架

3.2.1 无条件上色

3.2.2 有条件上色

3.2.3 处理颜色溢出和不正确颜色

4. 实验


0. 摘要

尽管存在许多上色方法,仍然存在一些限制,如缺乏用户交互,局部上色的不灵活性,不自然的颜色渲染,颜色变化不足和颜色溢出。为了解决这些问题,我们引入 Control Color (CtrlColor),这是一种多模态上色方法,利用预训练的 “Stable Diffusion”(SD)模型,在高度可控的交互式图像上色方面具有良好的性能。尽管已经提出了几种基于扩散的方法来支持多模态上色,但依然是一个非常棘手的问题。在这项研究中,我们的目标是解决无条件和有条件图像上色(文本提示,笔画,示例)的问题,并在统一框架内解决颜色溢出和不正确的颜色。具体而言,我们提出了一种有效的方式来编码用户笔画,以实现精确的局部颜色操作,并采用了一种实际的方式来约束颜色分布,类似于示例。除了接受文本提示作为条件外,这些设计为我们的方法增添了灵活性。我们还引入了一种基于自注意力和内容引导的可变形自编码器的新模块,以解决长期存在的颜色溢出和不准确上色的问题。广泛的比较表明,我们的模型在定性和定量上都优于最先进的图像上色方法。

代码:https://zhexinliang.github.io/Control_Color

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第1张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第2张图片

3. 方法

3.1. 预备工作:LDM 和 ControlNet

3.2. Control Color 框架

如图 3 所示,我们的方法包括两个主要组件:1)图像上色潜在扩散模型,以实现多模态控制;2)内容引导的可变形自编码器和简化的自注意力引导,以处理颜色溢出和不正确颜色问题。

3.2.1 无条件上色

在图 3(左侧)中,我们首先将输入图像转换为 Lab 空间并获取其 L 通道。L 通道首先使用自编码器的编码器编码到潜在空间,然后作为 ControlNet 的额外条件输入。输入的 RGB 图像也被编码并用作 Stable Diffusion 模型的输入。此操作使训练模型能够生成彩色图像,这些图像与输入灰度图像的结构密切相似。

先前的方法 [23, 54] 在给定相应 L 的情况下预测 ab 通道。我们采用类似的策略,但仅在后处理中,以减轻扩散模型引入的小变形,同时保留生成的颜色特征。输出由我们的自编码器的解码器重建,然后从 RGB 空间转换为 Lab 空间。我们将重建的 L 通道替换为原始输入的 L 通道,然后将结果 Lab 图像转换回 RGB 空间,以获得最终输出。此后处理确保最终输出与输入具有相同的内容。 

3.2.2 有条件上色

基于上述无条件上色,我们通过以下设计添加多模态控制。

提示控制。与先前研究 [36, 53] 中采用的方法一致,我们的方法首先使用 CLIP [34] 文本编码器对文本提示进行编码。随后,通过交叉注意力层,将此编码信息集成到 U-Net 架构的中间层中,这个过程应用于 ControlNet 和 Stable Diffusion 模型框架。利用交叉注意力机制使我们的模型能够有效地解释和响应文本提示,确保对生成内容进行精确控制。

笔画控制。首先,将笔画直接叠加在 L 通道图像上,表示为提示图像,以便获取笔画的颜色和位置。然后,从提示图像派生出一个二进制掩码。输入图像 I_i ∈ R^(C×H×W) 和提示图像 I_s ∈ R^(C×H×W) 被编码到潜在空间以分别获得输入潜在特征和提示潜在特征

我们使用最近邻下采样将笔画掩码下采样到

然后我们将它们连接成

并将它们馈送到去噪过程中的 U-Net 结构。我们只将输入灰度潜在特征 z_i 馈送到 ControlNet 组件中。目标函数然后变为:

示例控制。对于基于示例的图像上色,我们添加了一个 CLIP 图像编码器,将示例编码为潜在特征并将其馈送到交叉注意力块中。在训练过程中,模型的所有其他部分都是固定的,只有图像编码器进行微调。由于基于示例的上色没有配对数据,受到 Zhang 等人的启发 [52],我们采用上下文损失来约束生成结果的颜色分布,使其类似于示例。

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第3张图片

其中,ϕl 是预训练的 VGG19 模型 [40] 的第 l 层,Ie 是示例图像,Ig 是在扩散时间步骤 t 处预测的图像,由方程(7)给出。˜ dl(i, j) 是成对特征点的归一化余弦相似度 dl(i, j)。Al(i, j) 表示第 l 层特征之间的成对亲和性。参数 h 设置为 0.01,wl 分别设置为 8,4,2,对应于 l = 5,4,3。

此外,我们引入了一个灰度损失来约束生成结果的内容,使其类似于输入图像

其中 Ii 是由自编码器再生的输入图像,Ig 是在每个扩散时间步骤 t 中解码的生成结果,可以表示为:

其中 Iin 是原始的真实图像,ϵt 是在时间步骤 t 处预测的噪声,Xt 是在扩散前向过程中图像在 t 处的潜在编码,Φe 和 Φd 分别是固定自编码器的编码器和解码器。基于示例的上色训练的最终损失函数可以表示为:

我们经验性地将 we 设置为1000。 

3.2.3 处理颜色溢出和不正确颜色

内容引导的可变形(Deformable)自编码器。为了处理大范围的颜色溢出和不正确的颜色区域,我们在自编码器的解码器中引入了内容引导的可变形卷积层,如图 3(右侧)所示。 具体而言,在自编码器的解码器的前三个卷积块之后,我们添加了一个可变形卷积层。输入的灰度图像 Ii ∈ R^(3×H×W) 首先被编码为潜在空间z^(4 × H/8 × W/8),使用固定的原始自编码器的编码器,然后被用作可变形卷积的引导。在训练过程中,我们只训练这三个额外的可变形卷积层。通过我们的主模型随机使用不同类型的条件上色生成变形的彩色图像。损失函数在前 500 个训练步骤中为感知损失,以限制重建,后续步骤为感知损失+0.025×鉴别器损失。

在推理过程中,我们将原始自编码器的解码器替换为学习到的可变形解码器,并以与训练相同的方式将输入的灰度图像用作引导。在我们的界面中,用户可以选择是否使用学到的解码器。学到的解码器倾向于使相同区域内的颜色趋于相似。然而,用户可以选择不使用它以保留更大的灵活性。

简化的自注意力引导。受到 Hong 等人 [18] 在提高生成模型样本质量方面的启发,我们在推理过程中引入了无需训练的引导来处理小范围的颜色溢出,如图 3(右下)所示。这种精炼的自注意力引导在推理期间被使用,通过参考周围的颜色分布来模糊和重新预测小范围的溢出区域。

特别地,我们使用以下步骤修改预测的噪声 ϵ_t。注意力图 A_t 是在每个注意力块中进行 softmax 后由查询 Q 和键 K 计算的相似度图。我们按照 [18] 获取降级的预测 ^X'_0 和注意力掩码 M_t,该掩码掩盖除显著部分之外的大部分图像。

为了更好地保留原始颜色分布,与 Hong 等人 [18] 不同,我们保留了降级的 ^X'_0,没有附加的噪声,以保留更多未被掩盖的颜色信息。具体而言,我们从方程(9)获取 X'_t 和方程(11)获取修改后的 ˆϵ'_t 。然后对于 t ∈ [T, t_s],我们使用方程(11)中的 ˆϵ'_t 替换 ˆϵ_t,并输出新的预测X_(t−1)。这里总去噪步骤数 T 为 1000,我们经验性地将 t_s 设置为 600

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第4张图片

其中 ⊙ 表示逐元素乘法,model 表示我们的扩散模型,s 表示引导的比例。基于实验,我们将 s 设置为 0.05。在我们的界面中,我们提供了更改 s 的选项。有关 s 影响的进一步讨论在我们的补充材料中提供。

4. 实验

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第5张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第6张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第7张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第8张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第9张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第10张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第11张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第12张图片

(2024,CtrlColor,多模态提示,局部颜色操作)控制颜色:基于多模态扩散的交互式图像着色_第13张图片

你可能感兴趣的:(论文笔记,人工智能,计算机视觉)