DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS

1.DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS(使用扩散模型的文本引导图像处理)

机构:韩国高等科学技术研究院

DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第1张图片

 

github:GitHub - gwang-kim/DiffusionCLIP: [CVPR 2022] Official PyTorch Implementation for DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models

2.介绍和摘要:DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第2张图片

 摘要:

        扩散模型是最近的生成模型,在具有最新性能的图像生成中显示出巨大的成功。然而,对于使用扩散模型进行图像处理的研究很少。在这里,我们提出了一种新颖的DiffusionCLIP,它使用对比语言-图像预训练 (CLIP) 丢失,使用扩散模型执行文本驱动的图像处理。对于域内外图像处理任务,我们的方法具有与现代基于GAN的图像处理方法相当的性能,即使没有额外的编码器或优化,也具有几乎完美的反演优势。此外,我们的方法可以轻松地用于各种新颖的应用程序,从而可以将图像从看不见的域转换为另一个看不见的域,或者在看不见的域中生成笔画条件的图像,等等。最后,我们通过结合多个微调的扩散模型,提出了一种新颖的带有扩散剪辑的多属性控制。

3.diffusionClip

        用于图像处理的 DiffusionCLIP 的整体流程如图 2 所示。这里,输入图像 x0 首先通过前向扩散转换为潜在 xl。然后,在 CLIP 损失的指导下,对扩散模型进行微调,并从微调扩散模型生成更新样本。在扩散模型微调方面,可以修改潜在模型或扩散模型。在这项工作中,我们发现直接模型微调更有效,这将在后面的实验中显示.

DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第3张图片

 DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第4张图片

 其中x0是原始图像,而这些参数为优化参数 \hat{x}_{0}(\Theta )的被操纵图像,tref是参考文本,ttar是要操纵的目标文本.

我们使用以下由 CLIP 损失和身份损失组成的目标

direction loss

DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第5张图片 

 id loss

        其中 Lface 是人脸身份损失 (Deng et al., 2019)。 λL1 > 0 和 λface > 0 是每个损失的权重参数。身份丢失的必要性取决于控件的类型。对于某些控件,像素相似性和人类身份的保留很重要(例如表情、头发颜色),而其他控件则更喜欢剧烈的形状和颜色变化 

4.EXPERIMENTAL RESULTS

        对于 DiffusionCLIP 的所有操作结果,我们使用 256×256 大小的图像。我们使用在 CelebA-HQ (Karras et al., 2017)、AFHQ-Dog (Choi et al., 2020)、LSUN-Bedroom、LSUN-Church (Yu et al., 2015) 数据集上预训练的模型进行操作分别是人脸、狗、教堂和卧室的图像。对于 Celeba-HQ、LSUN-Church 和 LSUN-bedroom 模型,我们使用了 (Meng et al., 2021) 中的预训练模型,对于 AFHQ-Dog.

DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS_第6张图片

 5 CONCLUSION

        在本文中,我们提出了DiffusionCLIP,这是一种使用预先训练的扩散模型和clip损失的文本引导图像处理方法。得益于近乎完美的反演特性,DiffusionCLIP通过微调扩散模型显示出出色的域内和域外操纵性能。我们还介绍了使用微调扩散模型的几种新颖应用。

你可能感兴趣的:(机器学习,计算机视觉,深度学习,人工智能,图像处理,计算机视觉,神经网络)