FlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)

1.FlexIT

论文机构Facebook(Meta AI)2022 CVPRFlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)_第1张图片

 2.github地址:https://github.com/facebookresearch/SemanticImageTranslation/

        paper地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Couairon_FlexIT_Towards_Flexible_Semantic_Image_Translation_CVPR_2022_paper.pdf3.摘要:

        最近的图像编辑工作通过将图像投影到GAN潜空间并操纵潜矢量来进行。但是,这些方法的局限性在于,只能转换来自狭窄域的图像,并且只能进行有限数量的操作。

        我们提出了FlexIT,这是一种新颖的方法,可以获取任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑,突破了语义图像翻译的极限。

        FlexIT将输入图像和文本组合到CLIP多模式嵌入空间中的单个目标点。通过自动编码器的潜在空间,我们将输入图像向目标点迭代变换,从而通过各种新颖的正则化术语确保一致性和质量。

         图1。FlexIT转换示例。从上到下: 输入图像、转换图像和文本查询

4.方法:

FlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)_第2张图片

         涉及以绿色着色的多模态潜空间的组件; 涉及黄色图像潜空间的那些; 涉及粉红色LPIPS距离的那些。给定一个变换查询 (I0,S,T),我们首先在多模态嵌入空间中计算一个目标点P,然后在图像潜空间中编码I0得到z0。然后,对于固定的步数,我们更新潜在变量z (用z0初始化) 以更接近目标点P。我们添加两个正则化项: 输入图像和输出图像之间的LPIPS感知距离,以及z和z0之间的潜距离。所有网络都被冻结,只有z更新。

具体步骤:

        它依赖于三个预先训练的组件。首先,我们在潜空间中编辑输入图像,要求可以对各种图像进行编码和解码,以最小的失真回RGB图像。为此,我们选择了VQGAN自动编码器 。其次,我们将文本查询和输入图像嵌入到多模态嵌入空间中,以定义修改后图像的优化目标。我们使用CLIP 多模态嵌入空间。最后,为了确保修改后的图像保持与输入相似,我们使用VGG 主干计算的LPIPS感知距离 [54] 控制其到输入图像的距离。

        FlexIT方法的核心思想是在多模态嵌入空间中定义的高级语义目标的指导下,在潜在空间中编辑输入图像。分别设E为图像编码器,D为图像解码器,(Ct,Ci) 为文本和图像的多模式编码器。给定输入图像I0和文本变换S → T,

我们首先通过计算初始潜像表示为Z_{O} = E(I_{O}),目标多模态点P为:

        损失函数1:

        为了找到在多模态嵌入空间中编码后尽可能接近目标点的输出图像,我们优化了嵌入损失

 

        损失函数2:

        我们在嵌入损失中添加了两个正则化项,以鼓励仅更改与转换查询相关的内容。

        

        损失函数3:

        我们使用相对于初始潜码Z0的正则化项。我们在潜码的每个空间位置i处使用一个L2范数,并将这些范数跨空间位置求和以获得损失

FlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)_第3张图片

        

 FlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)_第4张图片

 5.实验 Experiments

FlexIT: Towards Flexible Semantic Image Translation(走向灵活的语义图像转换)(CVPR 2022)_第5张图片

        表 1. FlexIT 和 ImageNet 图像上的基线评估 

 6.可视化结果:

 

 

7.消融实验:

 

8.Conclusion  结论

        贡献。我们提出了 FlexIT,一种用于语义图像翻译的新方法。通过依赖自动编码器潜在空间,而不是专门的 GAN 潜在空间,它可以对广泛的图像进行操作。使用通用的预训练多模态嵌入空间提供了灵活性,使 FlexIT 能够在没有训练的情况下处理自由文本转换查询。我们还提出了一种基于 ImageNet 的语义图像翻译评估协议,我们用它来彻底评估我们的方法及其组件。

你可能感兴趣的:(人工智能,计算机视觉,深度学习,图像处理)