CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 摘要
  • 一、 框架图
  • 一、目前unpaired I2I
  • 二、本文方法
  • 三、实验结果


摘要

提示:论文原文摘要:

未配对的图像到图像 (I2I) 翻译通常需要在不同域中最大化源图像和已翻译图像之间的互信息,这对于生成器保留源内容并防止其进行不必要的修改至关重要。自监督对比学习已经成功应用于 I2I。通过将来自相同位置的要素限制为比来自不同位置的要素更近,它隐含地确保了结果从源获取内容。然而,先前的工作使用来自随机位置的特征来施加约束,这可能是不适当的,因为一些位置包含较少的源域信息。而且,特征本身并不反映与其他特征的关系。本文通过有意选择重要的锚点(anchor)进行对比学习来解决这些问题。我们设计了一个查询选择注意(QS-Attn)模块,它比较源域中的特征距离,给出一个注意矩阵,每行都有一个概率分布。然后我们根据从分布计算的重要性度量来选择查询。选择的那些被认为是对比损失的锚点。同时,减少的注意力矩阵用于在两个域中路由特征,以便在合成中保持源关系。我们在三个不同的 I2I 数据集中验证了我们提出的方法,表明它在不添加可学习参数的情况下提高了图像质量。

Codes are available at:代码地址


一、 框架图

CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。_第1张图片
CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。_第2张图片

一、目前unpaired I2I

在许多 I2I 任务中,无法获得配对数据,因此 G 不能直接由 Y 中的真实图像引导。确保输出接受输入内容对于提高其质量很重要。 [25,45,50] 中提出的典型方法通过另一个生成器 G’ 将结果转换回域 X,并在输入和最终输出之间设置循环一致性惩罚。虽然提高了质量,但他们引入了两个生成器和判别器,大大增加了训练成本。
最近,CUT [36] 结合了 G 输出和输入的跨域特征之间的对比学习。关键思想是约束来自编码器 E 的特征,要求来自相同位置的特征与来自不同位置的特征相近。去掉 QS-Attn 模块,图 1 说明了 CUT 的整体结构。从翻译图像的特征中选择一个随机位置的锚点,然后从输入的特征中也采样一个对应的正数和许多负数。计算anchor的对比损失,使模型最大化相应特征之间的互信息。请注意,CUT 只有一个方向。因此只需要一个G,降低了训练成本。图像质量大大提高,表明跨域的对比损失在 I2I 中很有用。
但是,CUT 仍然忽略了两个问题,这些问题可能会得到改进。首先,它在对比学习中没有选择有目的的锚点。因为它们中的每一个都代表原始图像分辨率中的一个小块,并且它们中的许多可能不反映任何与 I2I 相关的域特征。我们认为,只有那些包含重要域信息的才需要编辑,并且强加于它们的对比损失对于保证跨域的一致性更有意义。其次,每个锚点特征只有有限的感受野,没有考虑与其他位置的关系。这种关系提供了有价值的线索,以保持源内容稳定并使翻译相关。

二、本文方法

我们以简单的方式考虑上述两个问题,将 QS-Attn 模块插入到模型中,如图 1 所示,而不引入额外的模型参数。为了评估不同位置的特征显着性,我们直接利用 E 中的特征作为查询和键来计算源域中的注意力矩阵,然后计算分布熵作为度量。图 2 提供了直观的说明,其中这种熵度量以热图的形式可视化。特别是,给定需要翻译的输入图像,我们应用预训练的 CycleGAN [50] 和 CUT [36] 模型的编码器来获取特征并计算注意矩阵,然后计算它的每一行的熵。我们按升序对熵进行排序,并在图像上显示最小的 N 个点。对于马和猫图像,马的身体和猫的脸的熵值较小。对于Label图像,点主要位于类别的边缘。因此,熵可以作为衡量特征在反映域特征中的重要性的指标,因此我们可以对其施加对比损失,确保对域相关特征的准确翻译。
本文旨在定量测量每个anchor特征的显着性,并根据度量选择相关的用于对比损失。基于前面的分析,我们计算注意力矩阵中每一行的熵,保留熵值较小的那些。剩余的行形成查询选择的注意力(QS-Attn)矩阵,该矩阵由更少的查询组成,并且它们被进一步用于路由价值特征。这里将相同的矩阵与源域和目标域的值相乘,隐含地保持源域中的特征关系,避免对结果进行过度修改。
本文的贡献在于以下几个方面:

  • 我们在 I2I 任务中提出了一种 QS-Attn 机制。我们的方案是选择相关的锚点,将它们作为查询来关注和吸收其他位置的特征,形成更适合对比学习的特征。 QS-Attn 保持 CUT 中的简单设计,不添加任何模型参数。
  • 我们研究了量化查询的重要性、执行注意力和路由 QS-Attn 模块中的价值特征的不同方法,并发现跨域价值路由的基于熵的测量和全局注意力是稳健的方法.
  • 我们对常用的数据集进行了密集的实验,并表明所提出的方法在大多数两个域 I2I 任务中实现了 SOTA。

三、实验结果


CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。_第3张图片
CVPR -- QS-Attn: Query-Selected Attention for Contrastive Learning in I2I Translation。_第4张图片

你可能感兴趣的:(文献阅读,计算机视觉)