Interaction System(1): Dialog-based Interactive Image Retrieval

NIPS2018.
摘要
背景：
- 现有的交互式图像检索方法已经证明了整合用户反馈、改善检索结果的优点
- 基于用户反馈以交互的形式进行图像检索是有效可行的。
现有工作的局限性：
- 当前大多数系统依赖于受限形式的用户反馈，例如二元相关性反馈，或基于一组固定的相关属性的反馈，这限制了它们的影响。
创新性工作
- 本文提出了一种新的交互式图像搜索方法，使用户能够通过自然语言提供反馈，从而实现更自然、更有效的交互。
- 关键设计
  - 将基于对话的交互式图像检索任务制定为强化学习问题，并奖励对话系统在每个对话回合中提高目标图像的排名。
  - 为了在对话系统学习时减少收集人机对话的繁琐和昂贵的过程，我们使用用户模拟器训练我们的系统，该模拟器本身经过训练以描述目标图像和候选图像之间的差异。我们方法的有效性在鞋类检索应用程序中得到了证明。
- 对模拟和真实世界数据的实验表明：
  - 1）我们提出的学习框架比其他监督和强化学习基线实现了更好的准确性
  - 2）基于自然语言而不是预先指定的属性的用户反馈导致更有效的检索结果，和更自然和更具表现力的交互界面。

背景

图像媒体检索的数量急剧增加，并加剧了对能够更有效地识别相关信息的检索系统的需求，在电商等领域也得到应用。但由于特征表示和高级语义概念之间众所周知的语义鸿沟，以及难以在此类检索系统中充分了解用户的搜索意图仍然是一个挑战。

提高搜索效率的典型方法是允许用户与系统进行一组带约束的交互。特别是，用户提供有关检索到的对象的反馈，以便系统可以改进检索结果，允许用户和系统进行“对话”以解决用户想要检索的问题。如下图所示，相关性反馈允许用户指出哪些图像与所需图像“相似”或“不相似”，相对属性反馈允许将所需图像与候选图像进行比较基于一组固定属性的图像。虽然这些反馈范式是有效的，但对用户交互的特定形式的限制在很大程度上限制了用户可以传达的有益于检索过程的信息。

image.png

方法

1. overview

本文的框架称之为对话管理器 dialog manager，考虑用户通过多轮对话与检索代理(系统)交互。
在第 t 轮对话时，对话管理器向用户呈现从检索数据库 I = {Ii}N i = 0 中选择的候选图像。
然后，用户提供反馈语句 ot，描述候选图像 at 和所需图像之间的差异。
根据用户反馈和对话历史，对话管理器从数据库中选择另一个候选图像 at+1 并将其呈现给用户。这个过程一直持续到选择所需的图像或达到最大对话轮数。
在实践中，对话管理器可以每轮提供多张图像以实现更好的检索性能。本文主要专注于每轮交互返回单个图像的简化场景，可以将相同的框架扩展到多图像情况。

2. Dialog Manager

对话管理器由三个主要组件组成：Response Encoder 响应编码器、State Tracker状态跟踪器和 **Candidate Generator **候选生成器。

在第 t 轮对话时，响应编码器将候选图像和相应的用户反馈 {at, ot} 用一个联合的视觉语义embedding来表示 xt ∈ RD。
然后状态跟踪器将此表示与前几轮的对话历史聚合，生成一个新的特征向量 st ∈ RD 。
候选生成器使用聚合的表示 st 来选择显示给用户的新候选图像 at+1。

Response Encoder

核心目标是将上一轮的候选图片和用户反馈(文本)用语义融合的embedding表示。
具体做法：
- 用CNN对图片进行提取，并进行线性映射：
  - 具体实现： ImageNet pre-trained ResNet-101 参数固定。
- 文本：对用户反馈的文本中的单词用embedding表示，用CNN进行处理：

将两部分特征进行拼接组合得到最后的表征：

State Tracker

状态跟踪器基于GRU，接收response表示 xt 作为输入，将其与先前对话回合的历史表示组合，并输出聚合特征向量 st。
状态跟踪器的前向传播写为：
- 输出和隐藏状态表示：
- 最后聚合输出表示为：
st ∈ RD 是使用当前对话回合的信息更新的历史表示。状态跟踪器（GRU 模型）的可学习参数表示为 θs。状态跟踪器的这种基于内存的设计允许我们的模型按顺序聚合来自用户反馈的信息，以定位要检索的候选图像。

Candidate Generator

给定图像库中的所有图像， 下一步就是要从中检索出最相关的图片。
首先利用CNN得到所有图像的表征：
然后再从图中所有图像向量中计算历史表征s_t的top-K最近邻，基于欧式距离进行计算。
在选择下一个候选图像时，分为两种情况：
- 训练阶段：基于采样的思想，从top-K图像中按照相似程度进行采样，选取图像
- inference阶段：直接选取top-1图像作为下一个候选。
总体模型参数包括两部分： Response Encoder中的参数和State Tracker中GRU的相关参数。

3. Training the Dialog Manager

在监督学习方案中直接优化排名指标具有挑战性，因为它是一个不可微的函数。相反，我们将排名百分位数建模为代理收到的环境奖励，并在强化学习设置中构建学习过程，目标是最大化折扣奖励的预期总和：
- rt ∈ R 是表示目标图像在第 t 次交互时的排名百分位数的奖励
- γ 是确定短期和长期奖励之间权衡的折扣因子，T 是最大对话轮数, πθ 是由网络参数 θ.3 决定的策略
- 迭代轮次越大，对应的奖励收益越小。
- 针对这个问题训练 RL 模型需要对动作空间进行广泛的探索，这只有在有大量训练数据可用时才可行。
然而，为我们的任务收集和注释人机对话数据是昂贵的。这个问题在基于自然语言的用户反馈的情况下更加严重，与基于固定属性集的方法相比，这会导致更大的探索空间。
在基于文本的对话系统中，通常依靠用户模拟器来规避这个问题，本文采用了类似的策略，适用用户模拟器，在人工编写的相关描述上进行训练，在训练对话管理器时替代真实用户的角色。

User Simulator

基于relative caption的方式来构建模拟器，即通过一个模型生成目标图片和候选图片之间的差异描述，即用文本描述图片间的差异，将该差异作为用户的反馈，输入到下一轮模型中。
具体来说，使用特征连接来融合目标和参考图像对的图像特征，并应用 Show、Attend 和 Tell 模型使用长短期记忆网络 (LSTM) 生成相关标题。对于图像特征提取，我们采用了在 ImageNet 上预训练的 ResNet101架构；为了更好地捕捉局部视觉差异，我们添加了视觉注意机制；
- 相关描述的损失函数是正确单词的负对数似然之和。

Policy Learning

监督预训练
- 当网络参数在开始时随机初始化时，历史表示 st 几乎是随机的。为了促进 RL 训练期间的有效探索，我们首先使用监督学习目标对策略进行预训练。虽然基于最大似然的预训练更为常见，但我们在这里使用更具辨别力的三元组损失目标（hinge Loss）进行预训练：

其中 x+ 和 x− 分别是目标图像和从检索数据库中采样的随机图像的图像特征，m 是间距超参数。直观地，通过确保目标图像与系统返回的图像的接近度，可以提高目标图像的排名，而无需从随机初始化中进行昂贵的策略搜索。然而，完全依赖这个监督学习目标偏离了我们的主要学习目标，因为三元组损失目标不会联合优化候选图像集以最大化预期的未来奖励。

基于模型的政策改进。
- 鉴于环境的动态已知，利用其行为来改进策略通常是有利的。
- 在这里，我们将策略改进应用于我们基于模型的策略学习。给定当前策略 π 和用户模拟器，可以通过前瞻策略值估计(look-ahead policy value estimation) Qπ(ht, at) = E 有效地计算使用测试时配置采取行动at的分值
  
  image.png

因为用户模拟器本质上是确定性的，一个轨迹就足以估计一个动作值。因此，改进的策略 π' 可以从当前策略 π 推导出给定当前策略值的最佳动作：

通过最小化以下的交叉损失项进行处理。

与传统的策略梯度方法相比，基于模型的策略改进梯度具有更低的方差，并且收敛更快。在第 5 节中，我们通过将其与最近的策略梯度方法进行比较，进一步证明了基于模型的策略改进的有效性。

DataSet: Relative Captioning

用户模拟器旨在捕捉描述任何给定图像对的视觉差异的丰富而灵活的语言。
因此,数据集需要此属性即描述图片差异的文本。
我们将数据收集过程置于购物助理和客户之间的购物聊天会话的场景中。注释者被要求扮演顾客的角色，并提供一种自然的表达方式来通知购物助理所需的产品项目。为了促进更规律、更具体和相对的用户反馈，我们提供了一个句子前缀，供注释者在撰写他们对检索到的图像的响应时完成。否则，注释者响应是完全自由形式的：没有对响应施加其他约束。我们使用 Amazon Mechanical Turk 来众包相关表达式，总共收集了 10751 个标题，每对图像有一个标题。
当目标图像和参考图像足够不同时，用户通常直接描述目标图像的视觉外观，而不是使用相对表达式。这种行为反映了判别性描述问题，其中一种方法必须接收两个图像并生成仅引用其中一个的描述。相对描述和判别描述是互补的，在实践中，这两种策略都被使用，因此我们通过将 3600 个判别描述与其他不同图像配对来扩充我们的数据集。因此，描述部分和基于对话的交互式检索器都接受了区分性和相关性描述的训练，以便分别对真实用户更具代表性和响应性。

Experiments

在一个时尚的女鞋数据集上进行实验，与传统的attribute-based 方法进行了效率对比。

Conclusion

本文主要针对交互式图像检索任务，提出了基于自然语言反馈的检索框架。并具体涉及了相应的模块。
从所展示的效果上看，该框架具有里程碑意义，对于后续构成未来高保真、多模式、智能对话系统有重要的意义。

END

本人所有文章均为原创，欢迎转载，请注明文章出处。百度和各类采集站皆不可信，搜索请谨慎鉴别。技术类文章一般都有时效性，本人习惯不定期对自己的博文进行修正和更新，因此请访问本人主页查看最新信息https://www.jianshu.com/u/40d14973d97c